深度网络分类器在平方损失训练中的显式正则化与隐式偏置

摘要

本文为深度ReLU网络在分类任务中采用平方损失训练的有效性提供了完整的理论依据。通过对梯度流动力学的严格分析，我们证明当采用批归一化（BN）或权重归一化（WN）结合权重衰减（WD）时，系统将收敛至具有绝对最小范数的解。核心发现表明：未归一化权重矩阵的Frobenius范数是约束期望误差的主要特性——在所有接近插值的解中，范数较小的解具有更优的边界特性和更紧的期望分类误差界。

分析表明：当使用BN而未搭配WD时，动力系统会呈现奇异性；而在同时缺乏BN和WD的场景中，通过零初始条件使动力学偏向高边界解，仍可能实现隐式动态正则化。本理论框架衍生出若干可验证预测，包括BN与权重衰减的具体作用、Papyan、Han和Donoho发现的神经坍缩现象特征，以及BN对网络权重结构的约束机制。

1. 引言

尽管现有研究通过渐近边界最大化效应揭示了采用指数型损失函数的网络泛化中的复杂度控制机制，但这些既定框架无法解释两个关键实证现象：平方损失最小化所展现的优异性能，以及交叉熵损失最小化中观察到的初始化依赖收敛行为。这一理论空白促使我们聚焦研究深度网络分类器中的平方损失。

我们的分析主要考察基于梯度下降的常用归一化算法（包括批归一化和权重归一化结合权重衰减），因为这些技术对深度网络的可靠训练至关重要，且在我们试图解释的实证研究中被广泛采用。此外，我们还研究了既不使用BN也不使用WD的情况，证明分类任务中仍可出现动态隐式正则化效应，但其收敛行为高度依赖初始条件。

核心研究动机

平方损失在分类任务中违反理论预期的有效性之谜
现有指数损失边界最大化理论的局限性
交叉熵优化中初始化依赖收敛的实证证据
归一化技术在现代深度网络训练中的关键作用

2. 方法与符号体系

我们定义具有L层的深度网络，使用逐坐标标量激活函数σ(z): ℝ → ℝ，函数集表示为g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x)))，其中x ∈ ℝ^d表示输入，权重由矩阵W_k参数化（每层一个），其维度相互兼容。简写符号W表示完整权重矩阵集合{W_k}（k = 1, ..., L）。

形式化定义的重要特征包括：

架构细节：网络未使用显式偏置项，而是通过将某个输入维度固定为常数在输入层实现偏置
激活函数：采用ReLU激活函数，定义为σ(x) = x_+ = max(0, x)
归一化表示：定义g(x) = ρf(x)，其中ρ表示所有L层权重矩阵Frobenius范数的乘积，f表示对应使用归一化权重矩阵V_k的网络（利用ReLU激活函数的齐次性）
符号约定：使用f_n表示f(x_n)，指代归一化网络对输入x_n的输出
输入归一化：假设所有输入满足||x|| = 1
可分离条件：可分离性定义为所有训练数据的正确分类（y_n f_n > 0, ∀n），平均可分离性定义为Σ y_n f_n > 0

数学框架

分解式g(x) = ρf(x)支持对网络输出的尺度（ρ）和方向（f(x)）分量进行独立分析，为理解归一化效应和边界优化提供了理论视角。

3. 理论框架

3.1 回归目标与分类目标的对比

我们对平方损失的分析必须解释为何回归优化能有效执行分类任务。虽然训练过程最小化平方损失，但我们最终关注的是分类性能。与线性网络不同，深度网络通常存在多个全局零平方损失极小值，对应不同的插值解。尽管所有插值解都实现最优回归性能，但它们通常具有不同的边界特性，因此具有不同的期望分类性能。

关键之处在于：实现零平方损失并不会自