用平方損失訓練嘅深度網絡分類器:顯式正則化同隱式偏差

針對用平方損失訓練嘅深度ReLU網絡梯度流理論分析,探討歸一化技術帶來嘅顯式正則化同初始化動態產生嘅隱式偏差。
computecoin.net | PDF Size: 1.7 MB

摘要

本文對深度ReLU網絡採用平方損失進行分類任務時觀察到嘅有效性提供全面理論證明。通過對梯度流動力學嘅嚴格分析,我哋證明當批量歸一化(BN)或權重歸一化(WN)與權重衰減(WD)結合使用時,系統會收斂到具有絕對最小範數嘅解。我哋嘅核心發現確立咗非歸一化權重矩陣嘅Frobenius範數係限制預期誤差嘅主要屬性——在所有接近插值解嘅方案中,範數較小者展現出更優嘅邊界特性同更緊嘅分類誤差界限。

分析顯示當單獨使用BN而無WD時動力系統會出現奇異性,而喺同時缺乏BN同WD嘅情況下,通過零初始化條件將動力學偏向高邊界解,隱式動力學正則化仍然可能實現。本理論框架產生多個可檢驗預測,包括BN同權重衰減嘅具體作用、Papyan、Han同Donoho發現嘅神經坍塌現象特徵,以及BN對網絡權重結構施加嘅約束。

1. 引言

雖然以往研究通過漸進邊界最大化效應識別出指數型損失函數網絡泛化能力嘅複雜度控制機制,但呢啲現有框架未能解釋兩個關鍵實證觀察:使用平方損失最小化時表現出嘅強勁性能,以及交叉熵損失最小化中觀察到嘅依賴初始化條件嘅收斂行為。此理論空白推動我哋對深度網絡分類器中平方損失進行聚焦研究。

我哋嘅分析主要檢視常用基於梯度下降嘅歸一化算法,包括批量歸一化同權重歸一化與權重衰減相結合,因為呢啲技術對深度網絡可靠訓練至關重要,且被用於我哋試圖解釋嘅實證研究。此外,我哋考慮既無BN亦無WD嘅情況,證明分類任務中動態隱式正則化效應仍然可能出現,儘管收斂行為高度依賴初始條件。

核心研究動機

  • 平方損失喺分類任務中有效性違背理論預期之謎
  • 現有指數損失邊界最大化理論嘅局限性
  • 交叉熵優化中初始化依賴收斂嘅實證證據
  • 歸一化技術喺現代深度網絡訓練中嘅關鍵作用

2. 方法論與符號體系

我哋定義一個具有L層嘅深度網絡,使用逐坐標標量激活函數σ(z): ℝ → ℝ,函數集表示為g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))),其中x ∈ ℝ^d代表輸入,權重由矩陣W_k參數化,每層一個,維度相容。簡寫W代表完整權重矩陣集{W_k}(k = 1, ..., L)。

我哋形式化嘅顯著特點包括:

  • 架構細節: 網絡唔使用顯式偏置項;偏置通過將一個輸入維度保持為常數而喺輸入層實現
  • 激活函數: 採用ReLU激活函數定義為σ(x) = x_+ = max(0, x)
  • 歸一化表示: 定義g(x) = ρf(x),其中ρ代表所有L層權重矩陣Frobenius範數之乘積,f表示對應具有歸一化權重矩陣V_k嘅網絡(利用ReLU激活嘅齊次特性)
  • 符號約定: 使用f_n表示f(x_n),指定歸一化網絡對輸入x_n嘅輸出
  • 輸入歸一化: 假設所有輸入滿足||x|| = 1
  • 可分性條件: 可分性定義為對所有訓練數據正確分類(y_n f_n > 0, ∀n),平均可分性定義為Σ y_n f_n > 0

數學框架

分解g(x) = ρf(x)使得可以分開分析網絡輸出嘅尺度(ρ)同方向(f(x))分量,為歸一化效應同邊界優化提供理論洞察。

3. 理論框架

3.1 回歸與分類目標對比

我哋對平方損失嘅分析必須解釋為何回歸優化對分類任務有效。雖然訓練最小化平方損失,但我哋最終關心分類性能。與線性網絡唔同,深度網絡通常表現出多個全局零平方損失最小值對應插值解。儘管所有插值解都實現最優回歸性能,但佢哋通常具有唔同嘅邊界特性,因此預期分類性能亦唔同。

關鍵在於,實現零平方損失並唔自