Régularisation Explicite et Biais Implicite dans les Classificateurs de Réseaux Profonds Entraînés par Perte Quadratique

Résumé

Cet article fournit une justification théorique complète de l'efficacité observée des réseaux ReLU profonds entraînés avec une perte quadratique pour les tâches de classification. Par une analyse rigoureuse de la dynamique du flux de gradient associé, nous démontrons que la convergence vers des solutions de norme minimale absolue est attendue lorsque des techniques de normalisation telles que la Normalisation par Lots (BN) ou la Normalisation des Poids (WN) sont employées conjointement avec une Décomposition des Poids (WD). Notre principale découverte établit que la norme de Frobenius des matrices de poids non normalisées constitue la propriété principale bornant l'erreur attendue - parmi toutes les solutions proches de l'interpolation, celles avec des normes plus petites présentent des caractéristiques de marge supérieures et des bornes plus serrées sur l'erreur de classification attendue.

L'analyse révèle que le système dynamique devient singulier lorsque BN est utilisé sans WD, tandis qu'une régularisation dynamique implicite reste possible dans les scénarios dépourvus à la fois de BN et de WD via des conditions d'initialisation à zéro orientant la dynamique vers des solutions à haute marge. Le cadre théorique génère plusieurs prédictions testables, incluant les rôles spécifiques de BN et de la décomposition des poids, certains aspects des phénomènes d'Effondrement Neural identifiés par Papyan, Han et Donoho, et les contraintes imposées par BN sur les structures des poids du réseau.

1. Introduction

Bien que des recherches antérieures aient identifié des mécanismes de contrôle de la complexité sous-jacents à la généralisation dans les réseaux entraînés avec des fonctions de perte de type exponentiel via des effets asymptotiques de maximisation de la marge, ces cadres établis n'expliquent pas deux observations empiriques critiques : les fortes performances démontrées en utilisant la minimisation de la perte quadratique, et le comportement de convergence dépendant de l'initialisation observé dans la minimisation de la perte d'entropie croisée. Cette lacune théorique motive notre investigation ciblée de la perte quadratique dans les classificateurs de réseaux profonds.

Notre analyse examine principalement les algorithmes de normalisation basés sur la descente de gradient couramment utilisés, incluant la Normalisation par Lots et la Normalisation des Poids combinées à la décomposition des poids, ces techniques s'avérant essentielles pour un entraînement fiable des réseaux profonds et ayant été employées dans les études empiriques que nous cherchons à expliquer. De plus, nous considérons le cas où ni BN ni WD ne sont utilisés, démontrant que des effets de régularisation implicite dynamique pour la classification peuvent malgré tout émerger, bien qu'avec un comportement de convergence fortement dépendant des conditions initiales.

Motivations Clés de la Recherche

L'énigme de l'efficacité de la perte quadratique en classification malgré les attentes théoriques
Les limites des théories existantes de maximisation de la marge pour les pertes exponentielles
Les preuves empiriques d'une convergence dépendante de l'initialisation dans l'optimisation par entropie croisée
Le rôle essentiel des techniques de normalisation dans l'entraînement moderne des réseaux profonds

2. Méthodologie et Notation

Nous définissons un réseau profond à L couches utilisant des fonctions d'activation scalaires coordonnée par coordonnée σ(z) : ℝ → ℝ comme l'ensemble des fonctions g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), où x ∈ ℝ^d représente l'entrée, et les poids sont paramétrés par des matrices W_k, une par couche, avec des formes dimensionnellement compatibles. Le raccourci W désigne l'ensemble complet des matrices de poids {W_k} pour k = 1, ..., L.

Les aspects notables de notre formalisation incluent :

Détails de l'Architecture : Le réseau n'utilise pas de termes de biais explicites ; à la place, le biais est instancié dans la couche d'entrée via une dimension d'entrée maintenue constante
Fonction d'Activation : Nous utilisons la fonction d'activation ReLU définie comme σ(x) = x_+ = max(0, x)
Représentation Normalisée : Nous définissons g(x) = ρf(x) où ρ représente le produit des normes de Frobenius des matrices de poids sur toutes les L couches, et f désigne le réseau correspondant avec des matrices de poids normalisées V_k (tirant parti de la propriété d'homogénéité des activations ReLU)
Conventions Notationnelles : Nous utilisons f_n pour indiquer f(x_n), désignant la sortie du réseau normalisé pour l'entrée x_n
Normalisation des Entrées : Nous supposons ||x|| = 1 pour toutes les entrées
Conditions de Séparabilité : La séparabilité est définie comme une classification correcte pour toutes les données d'entraînement (y_n f_n > 0, ∀n), avec une séparabilité moyenne définie comme Σ y_n f_n > 0

Cadre Mathématique

La décomposition g(x) = ρf(x) permet une analyse séparée des composantes d'échelle (ρ) et de direction (f(x)) de la sortie du réseau, facilitant les insights théoriques sur les effets de normalisation et l'optimisation de la marge.

3. Cadre Théorique

3.1 Objectifs de Régression versus Classification

Notre analyse de la perte quadratique doit concilier la raison pour laquelle l'optimisation de régression est efficace pour les tâches de classification. Bien que l'entraînement minimise la perte quadratique, nous nous soucions in fine des performances de classification. Contrairement aux réseaux linéaires, les réseaux profonds présentent typiquement de multiples minima globaux de perte quadratique nulle correspondant à des solutions interpolantes. Bien que toutes les solutions interpolantes atteignent des performances de régression optimales, elles possèdent généralement des caractéristiques de marge différentes et par conséquent des performances de classification attendues différentes.

Il est crucial de noter qu'atteindre une perte quadratique nulle n'implique pas automatiq