Regularização Explícita e Viés Implícito em Classificadores de Redes Profundas Treinados com Perda Quadrática

Resumo

Este artigo fornece uma fundamentação teórica abrangente para a eficácia observada de redes ReLU profundas treinadas com perda quadrática em tarefas de classificação. Através de análise rigorosa da dinâmica do fluxo gradiente associado, demonstramos que a convergência para soluções com norma mínima absoluta é esperada quando técnicas de normalização como Batch Normalization (BN) ou Weight Normalization (WN) são empregadas em conjunto com Weight Decay (WD). Nossa principal descoberta estabelece que a norma de Frobenius das matrizes de pesos não normalizadas serve como propriedade primária para limitar o erro esperado - dentre todas as soluções próximas à interpolação, aquelas com normas menores exibem características de margem superiores e limites mais restritos para o erro de classificação esperado.

A análise revela que o sistema dinâmico torna-se singular quando BN é usado sem WD, enquanto a regularização dinâmica implícita permanece possível em cenários sem BN e WD através de condições iniciais zero que enviesam a dinâmica para soluções de alta margem. O arcabouço teórico gera várias previsões testáveis, incluindo os papéis específicos do BN e weight decay, aspectos dos fenômenos de Colapso Neural identificados por Papyan, Han e Donoho, e as restrições impostas pelo BN nas estruturas de pesos da rede.

1. Introdução

Embora pesquisas anteriores tenham identificado mecanismos de controle de complexidade subjacentes à generalização em redes treinadas com funções de perda do tipo exponencial através de efeitos assintóticos de maximização de margem, esses arcabouços estabelecidos falham em explicar duas observações empíricas críticas: o forte desempenho demonstrado usando minimização de perda quadrática, e o comportamento de convergência dependente da inicialização observado na minimização de perda de entropia cruzada. Esta lacuna teórica motiva nossa investigação focada na perda quadrática em classificadores de redes profundas.

Nossa análise examina principalmente algoritmos de normalização baseados em gradiente descendente comumente usados, incluindo Batch Normalization e Weight Normalization combinados com weight decay, uma vez que essas técnicas se mostram essenciais para o treinamento confiável de redes profundas e foram empregadas nos estudos empíricos que buscamos explicar. Adicionalmente, consideramos o caso onde nem BN nem WD são utilizados, demonstrando que efeitos dinâmicos de regularização implícita para classificação ainda podem emergir, embora com comportamento de convergência fortemente dependente das condições iniciais.

Principais Motivações de Pesquisa

O enigma da eficácia da perda quadrática na classificação apesar das expectativas teóricas
Limitações das teorias existentes de maximização de margem para perdas exponenciais
Evidências empíricas de convergência dependente da inicialização na otimização de entropia cruzada
O papel essencial das técnicas de normalização no treinamento moderno de redes profundas

2. Metodologia e Notação

Definimos uma rede profunda com L camadas usando funções de ativação escalares por coordenada σ(z): ℝ → ℝ como o conjunto de funções g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), onde x ∈ ℝ^d representa a entrada, e os pesos são parametrizados por matrizes W_k, uma por camada, com formas dimensionalmente compatíveis. A abreviação W denota o conjunto completo de matrizes de pesos {W_k} para k = 1, ..., L.

Aspectos notáveis de nossa formalização incluem:

Detalhes da Arquitetura: A rede não emprega termos de viés explícitos; em vez disso, o viés é instanciado na camada de entrada através de uma dimensão de entrada mantida como constante
Função de Ativação: Utilizamos a função de ativação ReLU definida como σ(x) = x_+ = max(0, x)
Representação Normalizada: Definimos g(x) = ρf(x) onde ρ representa o produto das normas de Frobenius das matrizes de pesos através de todas as L camadas, e f denota a rede correspondente com matrizes de pesos normalizadas V_k (aproveitando a propriedade de homogeneidade das ativações ReLU)
Convenções Notacionais: Usamos f_n para indicar f(x_n), designando a saída da rede normalizada para entrada x_n
Normalização de Entrada: Assumimos ||x|| = 1 para todas as entradas
Condições de Separabilidade: Separabilidade é definida como classificação correta para todos os dados de treinamento (y_n f_n > 0, ∀n), com separabilidade média definida como Σ y_n f_n > 0

Arcabouço Matemático

A decomposição g(x) = ρf(x) permite análise separada dos componentes de escala (ρ) e direção (f(x)) da saída da rede, facilitando insights teóricos sobre efeitos de normalização e otimização de margem.

3. Arcabouço Teórico

3.1 Objetivos de Regressão versus Classificação

Nossa análise da perda quadrática deve reconciliar por que a otimização de regressão performa efetivamente para tarefas de classificação. Embora o treinamento minimize a perda quadrática, nós fundamentalmente nos importamos com o desempenho de classificação. Diferentemente de redes lineares, redes profundas tipicamente exibem múltiplos mínimos globais de perda quadrática zero correspondendo a soluções interpoladoras. Embora todas as soluções interpoladoras atinjam desempenho de regressão ótimo, elas geralmente possuem características de margem diferentes e consequentemente desempenho de classificação esperado distinto.

Crucialmente, atingir perda quadrática zero não automa