Аннотация
Данная работа предоставляет комплексное теоретическое обоснование наблюдаемой эффективности глубоких сетей с ReLU-активациями, обученных с квадратичной функцией потерь для задач классификации. Посредством строгого анализа динамики градиентного потока мы демонстрируем, что сходимость к решениям с абсолютно минимальной нормой ожидается при совместном использовании методов нормализации, таких как Batch Normalization (BN) или Weight Normalization (WN), вместе с Weight Decay (WD). Наше ключевое открытие устанавливает, что норма Фробениуса ненормированных матриц весов служит основным свойством, ограничивающим ожидаемую ошибку — среди всех решений, близких к интерполирующим, решения с меньшими нормами демонстрируют превосходные характеристики запаса и более узкие границы ожидаемой ошибки классификации.
Анализ показывает, что динамическая система становится сингулярной при использовании BN без WD, в то время как неявная динамическая регуляризация остается возможной в сценариях без BN и WD благодаря нулевым начальным условиям, смещающим динамику в сторону решений с большим запасом. Теоретическая основа порождает несколько проверяемых прогнозов, включая специфические роли BN и weight decay, аспекты феномена Neural Collapse, идентифицированного Папяном, Ханом и Донхо, и ограничения, накладываемые BN на структуры весов сети.
1. Введение
В то время как предыдущие исследования выявили механизмы контроля сложности, лежащие в основе обобщающей способности сетей, обученных с экспоненциальными функциями потерь, через асимптотические эффекты максимизации запаса, эти устоявшиеся рамки не могут объяснить два критических эмпирических наблюдения: высокую производительность, демонстрируемую при использовании минимизации квадратичной потери, и поведение сходимости, зависящее от инициализации, наблюдаемое при минимизации перекрестной энтропии. Этот теоретический пробел мотивирует наше целенаправленное исследование квадратичной потери в глубоких классификаторах.
Наш анализ в основном рассматривает широко используемые алгоритмы нормализации на основе градиентного спуска, включая Batch Normalization и Weight Normalization в сочетании с weight decay, поскольку эти техники оказываются необходимыми для надежного обучения глубоких сетей и использовались в эмпирических исследованиях, которые мы стремимся объяснить. Кроме того, мы рассматриваем случай, когда не используются ни BN, ни WD, демонстрируя, что динамические эффекты неявной регуляризации для классификации все же могут возникать, хотя поведение сходимости сильно зависит от начальных условий.
Ключевые мотивы исследования
- Загадка эффективности квадратичной потери в классификации вопреки теоретическим ожиданиям
- Ограничения существующих теорий максимизации запаса для экспоненциальных потерь
- Эмпирические свидетельства зависимости сходимости от инициализации при оптимизации перекрестной энтропии
- Существенная роль техник нормализации в современном обучении глубоких сетей
2. Методология и обозначения
Мы определяем глубокую сеть с L слоями, используя покоординатные скалярные функции активации σ(z): ℝ → ℝ, как множество функций g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), где x ∈ ℝ^d представляет вход, а веса параметризованы матрицами W_k, по одной на слой, с совместимыми по размерности формами. Сокращение W обозначает полный набор матриц весов {W_k} для k = 1, ..., L.
Примечательные аспекты нашей формализации включают:
- Детали архитектуры: Сеть не использует явные члены смещения; вместо этого смещение реализовано во входном слое через одно входное измерение, поддерживаемое как константа
- Функция активации: Мы используем функцию активации ReLU, определяемую как σ(x) = x_+ = max(0, x)
- Нормированное представление: Мы определяем g(x) = ρf(x), где ρ представляет произведение норм Фробениуса матриц весов по всем L слоям, а f обозначает соответствующую сеть с нормированными матрицами весов V_k (используя свойство однородности активаций ReLU)
- Обозначения: Мы используем f_n для обозначения f(x_n), определяя выход нормированной сети для входа x_n
- Нормализация входа: Мы предполагаем ||x|| = 1 для всех входов
- Условия разделимости: Разделимость определяется как правильная классификация всех обучающих данных (y_n f_n > 0, ∀n), при этом средняя разделимость определяется как Σ y_n f_n > 0
Математический аппарат
Декомпозиция g(x) = ρf(x) позволяет раздельно анализировать масштаб (ρ) и направление (f(x)) компоненты выхода сети, способствуя теоретическому пониманию эффектов нормализации и оптимизации запаса.
3. Теоретическая основа
3.1 Задачи регрессии против задач классификации
Наш анализ квадратичной потери должен объяснить, почему оптимизация регрессии эффективно работает для задач классификации. Хотя обучение минимизирует квадратичную потерю, в конечном счете нас интересует производительность классификации. В отличие от линейных сетей, глубокие сети обычно демонстрируют несколько глобальных минимумов квадратичной потери, соответствующих интерполирующим решениям. Хотя все интерполирующие решения достигают оптимальной производительности регрессии, они, как правило, обладают разными характеристиками запаса и, следовательно, разной ожидаемой производительностью классификации.
Ключевым моментом является то, что достижение нулевой квадратичной потери не автома