摘要
本文針對深度ReLU網路在分類任務中使用平方損失訓練所觀察到的有效性,提供了完整的理論依據。透過對相關梯度流動態的嚴謹分析,我們證明當批次正規化(BN)或權重正規化(WN)與權重衰減(WD)共同使用時,預期會收斂至具有絕對最小範數的解。我們的核心發現確立了未正規化權重矩陣的Frobenius範數是限制預期誤差的主要特性——在所有接近插值的解中,具有較小範數的解展現出更優異的邊界特性以及更嚴格的預期分類誤差界限。
分析顯示,當使用BN而未使用WD時,動態系統會變得奇異;而在缺乏BN和WD的情況下,透過零初始條件使動態偏向高邊界解,隱式動態正則化仍然可能實現。此理論框架產生了多個可檢驗的預測,包括BN和權重衰減的具體作用、Papyan、Han和Donoho所識別的神經崩潰現象的各個方面,以及BN對網路權重結構施加的限制。
1. 緒論
儘管先前的研究透過漸進邊界最大化效應,識別了使用指數型損失函數訓練的網路中潛在的複雜度控制機制,但這些既有的框架無法解釋兩個關鍵的實證觀察:使用平方損失最小化所展現的強大效能,以及在交叉熵損失最小化中觀察到的依賴於初始化的收斂行為。此理論空白促使我們對深度網路分類器中的平方損失進行聚焦研究。
我們的分析主要檢視了常用的基於梯度下降的正規化演算法,包括批次正規化與權重正規化結合權重衰減,因為這些技術對於深度網路的可靠訓練至關重要,並且在我們試圖解釋的實證研究中被廣泛使用。此外,我們也考慮了既未使用BN也未使用WD的情況,證明分類的動態隱式正則化效應仍然可能出現,儘管其收斂行為強烈依賴於初始條件。
關鍵研究動機
- 平方損失在分類中的有效性與理論預期不符之謎
- 現有指數損失邊界最大化理論的局限性
- 交叉熵最佳化中依賴初始化的收斂行為之實證證據
- 正規化技術在現代深度網路訓練中的關鍵作用
2. 方法論與符號表示
我們定義一個具有L層的深度網路,使用逐座標純量激活函數σ(z): ℝ → ℝ,其函數集合為 g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))),其中 x ∈ ℝ^d 代表輸入,權重由矩陣 W_k 參數化,每層一個,其維度形狀相容。簡寫 W 表示所有權重矩陣的完整集合 {W_k},其中 k = 1, ..., L。
我們形式化的顯著面向包括:
- 架構細節: 該網路未使用顯式偏置項;相反地,偏置是在輸入層中透過一個維持為常數的輸入維度來實現
- 激活函數: 我們使用ReLU激活函數,定義為 σ(x) = x_+ = max(0, x)
- 正規化表示: 我們定義 g(x) = ρf(x),其中 ρ 代表所有 L 層中權重矩陣的 Frobenius 範數的乘積,而 f 表示具有正規化權重矩陣 V_k 的對應網路(利用ReLU激活函數的齊次性質)
- 符號慣例: 我們使用 f_n 表示 f(x_n),指定正規化網路對於輸入 x_n 的輸出
- 輸入正規化: 我們假設所有輸入的 ||x|| = 1
- 可分離性條件: 可分離性定義為所有訓練資料的正確分類(y_n f_n > 0, ∀n),而平均可分離性定義為 Σ y_n f_n > 0
數學框架
分解式 g(x) = ρf(x) 使得能夠分別分析網路輸出的尺度(ρ)和方向(f(x))分量,有助於對正規化效應和邊界最佳化獲得理論見解。
3. 理論框架
3.1 迴歸與分類目標之對比
我們對平方損失的分析必須調和為何迴歸最佳化在分類任務中能有效運作。雖然訓練是最小化平方損失,但我們最終關心的是分類效能。與線性網路不同,深度網路通常表現出多個對應於插值解的全局零平方損失最小值。儘管所有插值解都實現了最佳的迴歸效能,但它們通常具有不同的邊界特性,因此具有不同的預期分類效能。
關鍵在於,實現零平方損失並不會自