Regolarizzazione Esplicita e Bias Implicito nei Classificatori di Reti Neurali Profonde Addestrate con Funzione di Perdita Quadratica

Abstract

Questo articolo fornisce una giustificazione teorica completa dell'efficacia osservata delle reti neurali profonde ReLU addestrate con funzione di perdita quadratica in compiti di classificazione. Attraverso un'analisi rigorosa delle dinamiche del flusso del gradiente associato, dimostriamo che ci si aspetta una convergenza verso soluzioni con norma minima assoluta quando si impiegano tecniche di normalizzazione come la Batch Normalization (BN) o la Weight Normalization (WN) insieme al Weight Decay (WD). La nostra scoperta principale stabilisce che la norma di Frobenius delle matrici di peso non normalizzate costituisce la proprietà primaria che delimita l'errore atteso - tra tutte le soluzioni quasi-interpolanti, quelle con norme più piccole presentano caratteristiche di margine superiori e limiti più stringenti sull'errore di classificazione atteso.

L'analisi rivela che il sistema dinamico diventa singolare quando si utilizza BN senza WD, mentre una regolarizzazione dinamica implicita rimane possibile in scenari privi sia di BN che di WD attraverso condizioni iniziali nulle che orientano le dinamiche verso soluzioni ad alto margine. Il quadro teorico genera diverse previsioni verificabili, inclusi i ruoli specifici di BN e del decadimento dei pesi, aspetti dei fenomeni di Neural Collapse identificati da Papyan, Han e Donoho, e i vincoli imposti da BN sulle strutture dei pesi della rete.

1. Introduzione

Mentre ricerche precedenti hanno identificato meccanismi di controllo della complessità alla base della generalizzazione in reti addestrate con funzioni di perdita di tipo esponenziale attraverso effetti asintotici di massimizzazione del margine, questi quadri consolidati non riescono a spiegare due osservazioni empiriche critiche: le elevate prestazioni dimostrate utilizzando la minimizzazione della perdita quadratica e il comportamento di convergenza dipendente dall'inizializzazione osservato nella minimizzazione della perdita di entropia incrociata. Questa lacuna teorica motiva la nostra indagine focalizzata sulla perdita quadratica nei classificatori di reti neurali profonde.

La nostra analisi esamina principalmente gli algoritmi di normalizzazione basati sulla discesa del gradiente comunemente utilizzati, inclusi la Batch Normalization e la Weight Normalization combinati con il decadimento dei pesi, poiché queste tecniche si rivelano essenziali per un addestramento affidabile delle reti profonde e sono state impiegate negli studi empirici che cerchiamo di spiegare. Inoltre, consideriamo il caso in cui non vengano utilizzati né BN né WD, dimostrando che effetti dinamici di regolarizzazione implicita per la classificazione possono comunque emergere, sebbene con un comportamento di convergenza fortemente dipendente dalle condizioni iniziali.

Motivazioni Principali della Ricerca

L'enigma dell'efficacia della perdita quadratica nella classificazione nonostante le aspettative teoriche
Limitazioni delle teorie esistenti sulla massimizzazione del margine per le perdite esponenziali
Evidenze empiriche della convergenza dipendente dall'inizializzazione nell'ottimizzazione dell'entropia incrociata
Il ruolo essenziale delle tecniche di normalizzazione nell'addestramento moderno delle reti neurali profonde

2. Metodologia e Notazione

Definiamo una rete neurale profonda con L strati utilizzando funzioni di attivazione scalari elemento per elemento σ(z): ℝ → ℝ come l'insieme di funzioni g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), dove x ∈ ℝ^d rappresenta l'input, e i pesi sono parametrizzati da matrici W_k, una per strato, con forme dimensionalmente compatibili. La scorciatoia W denota l'insieme completo delle matrici di peso {W_k} per k = 1, ..., L.

Aspetti notevoli della nostra formalizzazione includono:

Dettagli Architetturali: La rete non impiega termini di bias espliciti; invece, il bias è istanziato nello strato di input attraverso una dimensione di input mantenuta costante
Funzione di Attivazione: Utilizziamo la funzione di attivazione ReLU definita come σ(x) = x_+ = max(0, x)
Rappresentazione Normalizzata: Definiamo g(x) = ρf(x) dove ρ rappresenta il prodotto delle norme di Frobenius delle matrici di peso attraverso tutti gli L strati, e f denota la corrispondente rete con matrici di peso normalizzate V_k (sfruttando la proprietà di omogeneità delle attivazioni ReLU)
Convenzioni Notazionali: Usiamo f_n per indicare f(x_n), designando l'output della rete normalizzata per l'input x_n
Normalizzazione dell'Input: Assumiamo ||x|| = 1 per tutti gli input
Condizioni di Separabilità: La separabilità è definita come classificazione corretta per tutti i dati di addestramento (y_n f_n > 0, ∀n), con separabilità media definita come Σ y_n f_n > 0

Quadro Matematico

La scomposizione g(x) = ρf(x) consente l'analisi separata delle componenti di scala (ρ) e direzione (f(x)) dell'output della rete, facilitando intuizioni teoriche sugli effetti di normalizzazione e l'ottimizzazione del margine.

3. Quadro Teorico

3.1 Obiettivi di Regressione versus Classificazione

La nostra analisi della perdita quadratica deve riconciliare il motivo per cui l'ottimizzazione della regressione funziona efficacemente per compiti di classificazione. Sebbene l'addestramento minimizzi la perdita quadratica, a noi interessa in ultima analisi la performance di classificazione. A differenza delle reti lineari, le reti profonde tipicamente presentano molteplici minimi globali a perdita quadratica zero corrispondenti a soluzioni interpolanti. Sebbene tutte le soluzioni interpolanti raggiungano una performance di regressione ottimale, generalmente possiedono caratteristiche di margine diverse e, di conseguenza, performance di classificazione attesa diversa.

Fondamentalmente, raggiungere una perdita quadratica zero non automa