제곱 손실 함수로 학습된 심층 신경망 분류기의 명시적 정규화와 암묵적 편향

제곱 손실 함수로 학습된 심층 ReLU 네트워크의 그래디언트 흐름 이론 분석: 정규화 기법을 통한 명시적 정규화와 초기화 역학을 통한 암묵적 편향 탐구
computecoin.net | PDF Size: 1.7 MB

요약

본 논문은 분류 작업에서 제곱 손실 함수로 학습된 심층 ReLU 네트워크의 관찰된 효과성에 대한 포괄적인 이론적 근거를 제시합니다. 관련 그래디언트 흐름 역학에 대한 엄밀한 분석을 통해, 배치 정규화(BN) 또는 가중치 정규화(WN)가 가중치 감쇠(WD)와 함께 사용될 때 절대 최소 노름을 갖는 해로의 수렴이 예상됨을 입증합니다. 우리의 핵심 발견은 정규화되지 않은 가중치 행렬의 프로베니우스 노름이 기대 오차를 제한하는 주요 특성으로 작용한다는 점을 확립합니다 - 모든 보간에 가까운 해 중에서 더 작은 노름을 갖는 해들이 우수한 마진 특성과 더 엄격한 기대 분류 오차 한계를 나타냅니다.

분석 결과, WD 없이 BN만 사용할 때 동적 시스템이 특이점을 가지게 되지만, BN과 WD 모두 없는 시나리오에서는 영-초기화 조건을 통해 암묵적 동적 정규화가 여전히 가능하며, 이는 높은 마진 해를 향한 편향 역학을 유도합니다. 이론적 프레임워크는 BN과 가중치 감쇠의 구체적 역할, Papyan, Han, Donoho가 확인한 신경망 붕괴(Neural Collapse) 현상의 측면, 그리고 BN이 네트워크 가중치 구조에 부과하는 제약을 포함한 여러 검증 가능한 예측을 생성합니다.

1. 서론

기존 연구들이 지수형 손실 함수로 학습된 네트워크의 일반화를 뒷받침하는 점근적 마진 최대화 효과를 통한 복잡성 제어 메커니즘을 확인했지만, 이러한 기존 프레임워크들은 두 가지 중요한 경험적 관찰을 설명하지 못합니다: 제곱 손실 최소화를 사용한 강력한 성능, 그리고 교차 엔트로피 손실 최소화에서 관찰된 초기화 의존적 수렴 행동입니다. 이러한 이론적 격차는 심층 신경망 분류기에서 제곱 손실에 대한 집중적인 연구를 촉발합니다.

우리의 분석은 주로 배치 정규화와 가중치 정규화를 가중치 감쇠와 결합한 일반적으로 사용되는 경사하강법 기반 정규화 알고리즘을 검토합니다. 이러한 기법들은 심층 네트워크의 안정적인 학습에 필수적이며 우리가 설명하고자 하는 경험적 연구에서 사용되었기 때문입니다. 추가적으로, BN과 WD 모두 사용되지 않는 경우도 고려하여, 비록 초기 조건에 강하게 의존하는 수렴 행동을 보이지만 분류를 위한 동적 암묵적 정규화 효과가 여전히 발생할 수 있음을 입증합니다.

주요 연구 동기

  • 이론적 예측에도 불구하고 분류에서 제곱 손실 효과성의 수수께끼
  • 지수 손실 함수에 대한 기존 마진 최대화 이론의 한계
  • 교차 엔트로피 최적화에서 초기화 의존적 수렴에 대한 경험적 증거
  • 현대 심층 신경망 학습에서 정규화 기법의 필수적 역할

2. 방법론 및 표기법

좌표별 스칼라 활성화 함수 σ(z): ℝ → ℝ를 사용하는 L개 계층을 가진 심층 네트워크를 함수 집합 g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x)))로 정의합니다. 여기서 x ∈ ℝ^d는 입력을 나타내며, 가중치는 차원 호환 가능한 형태를 가진 계층별 행렬 W_k로 매개변수화됩니다. 약어 W는 k = 1, ..., L에 대한 전체 가중치 행렬 집합 {W_k}를 나타냅니다.

우리의 형식화에서 주목할 만한 측면들은 다음과 같습니다:

  • 아키텍처 상세: 네트워크는 명시적 편향 항을 사용하지 않으며, 대신 편향은 상수로 유지되는 하나의 입력 차원을 통해 입력 계층에서 구현됩니다
  • 활성화 함수: σ(x) = x_+ = max(0, x)로 정의되는 ReLU 활성화 함수를 사용합니다
  • 정규화 표현: g(x) = ρf(x)로 정의하며, 여기서 ρ는 모든 L개 계층에 걸친 가중치 행렬의 프로베니우스 노름의 곱을 나타내고, f는 정규화된 가중치 행렬 V_k를 사용하는 해당 네트워크를 나타냅니다 (ReLU 활성화의 동질성 특성 활용)
  • 표기법 관례: f_n은 f(x_n)을 나타내며, 입력 x_n에 대한 정규화된 네트워크의 출력을 지정합니다
  • 입력 정규화: 모든 입력에 대해 ||x|| = 1을 가정합니다
  • 분리 가능 조건: 분리 가능성은 모든 학습 데이터에 대한 정확한 분류(y_n f_n > 0, ∀n)로 정의되며, 평균 분리 가능성은 Σ y_n f_n > 0으로 정의됩니다

수학적 프레임워크

분해 g(x) = ρf(x)는 네트워크 출력의 크기(ρ)와 방향(f(x)) 구성 요소를 별도로 분석할 수 있게 하여, 정규화 효과와 마진 최적화에 대한 이론적 통찰력을 용이하게 합니다.

3. 이론적 프레임워크

3.1 회귀 대 분류 목표

제곱 손실에 대한 우리의 분석은 회귀 최적화가 분류 작업에 효과적인 이유를 설명해야 합니다. 학습은 제곱 손실을 최소화하지만, 궁극적으로는 분류 성능에 관심을 가집니다. 선형 네트워크와 달리, 심층 네트워크는 일반적으로 보간 해에 해당하는 여러 전역적 제로 제곱 손실 최소점을 나타냅니다. 모든 보간 해가 최적의 회귀 성능을 달성하지만, 일반적으로 서로 다른 마진 특성을 가지므로 결과적으로 기대 분류 성능도 다릅니다.

결정적으로, 제로 제곱 손실을 달성하는 것이 자동으로