Derin Ağ Sınıflandırıcılarında Kare Kayıp ile Eğitimde Açık Düzenlileştirme ve Örtük Eğilim

Derin ReLU ağlarında kare kayıp ile eğitim sırasındaki gradyan akışının teorik analizi, normalizasyon teknikleriyle açık düzenlileştirme ve başlangıç dinamikleriyle örtük eğilimleri inceler.
computecoin.net | PDF Size: 1.7 MB

Özet

Bu makale, sınıflandırma görevlerinde kare kayıp ile eğitilmiş derin ReLU ağlarının gözlemlenen etkinliği için kapsamlı bir teorik gerekçe sunmaktır. İlgili gradyan akış dinamiğinin titiz analizi yoluyla, Toplu Normalizasyon (BN) veya Ağırlık Normalizasyonu (WN) gibi normalizasyon teknikleri Ağırlık Sönümü (WD) ile birlikte kullanıldığında, mutlak minimum norma sahip çözümlere yakınsamanın beklendiğini gösteriyoruz. Temel bulgumuz, normalleştirilmemiş ağırlık matrislerinin Frobenius normunun, beklenen hatayı sınırlayan temel özellik olduğunu ortaya koymaktadır - enterpolasyona yakın tüm çözümler arasında, daha küçük normlara sahip olanlar daha üstün marj özellikleri sergiler ve beklenen sınıflandırma hatası için daha sıkı sınırlara sahiptir.

Analiz, BN'nin WD olmadan kullanıldığında dinamik sistemin tekil hale geldiğini ortaya çıkarırken, hem BN hem de WD'nin bulunmadığı senaryolarda sıfır başlangıç koşulları yoluyla dinamikleri yüksek marjlı çözümlere yönlendiren örtük dinamik düzenlileştirmenin mümkün olmaya devam ettiğini göstermektedir. Teorik çerçeve, BN ve ağırlık sönümünün spesifik rollerini, Papyan, Han ve Donoho tarafından tanımlanan Nöral Çöküş fenomenlerinin yönlerini ve BN'nin ağ ağırlık yapıları üzerine koyduğu kısıtlamalar da dahil olmak üzere birkaç test edilebilir tahmin üretmektedir.

1. Giriş

Önceki araştırmalar, asimptotik marj maksimizasyonu etkileri yoluyla üstel tip kayıp fonksiyonları ile eğitilmiş ağlardaki genellemenin altında yatan karmaşıklık kontrol mekanizmalarını tanımlamış olsa da, bu yerleşik çerçeveler iki kritik ampirik gözlemi açıklamakta başarısız olmaktadır: kare kayıp minimizasyonu kullanılarak gösterilen güçlü performans ve çapraz entropi kayıp minimizasyonunda gözlemlenen başlangıç koşuluna bağlı yakınsama davranışı. Bu teorik boşluk, derin ağ sınıflandırıcılarında kare kaybına odaklanan araştırmamızı motive etmektedir.

Analizimiz öncelikle, Toplu Normalizasyon ve Ağırlık Normalizasyonu gibi yaygın kullanılan gradyan iniş tabanlı normalizasyon algoritmalarını ağırlık sönümü ile birleştirerek inceler, çünkü bu teknikler derin ağların güvenilir eğitimi için gereklidir ve açıklamaya çalıştığımız ampirik çalışmalarda kullanılmışlardır. Ek olarak, ne BN ne de WD'nin kullanılmadığı durumu da ele alıyoruz ve sınıflandırma için dinamik örtük düzenlileştirme etkilerinin hala ortaya çıkabileceğini, ancak yakınsama davranışının başlangıç koşullarına güçlü bir şekilde bağlı olduğunu gösteriyoruz.

Araştırmanın Temel Motivasyonları

  • Teorik beklentilere rağmen kare kaybının sınıflandırmadaki etkinlik bulmacası
  • Üstel kayıplar için mevcut marj maksimizasyon teorilerinin sınırlamaları
  • Çapraz entropi optimizasyonunda başlangıç koşuluna bağlı yakınsamaya dair ampirik kanıtlar
  • Normalizasyon tekniklerinin modern derin ağ eğitimindeki temel rolü

2. Metodoloji ve Notasyon

L katmanlı bir derin ağı, koordinat bazlı skaler aktivasyon fonksiyonları σ(z): ℝ → ℝ kullanarak, g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))) fonksiyonları kümesi olarak tanımlıyoruz; burada x ∈ ℝ^d girdiyi temsil eder ve ağırlıklar, her biri bir katmana ait, boyutsal olarak uyumlu şekillere sahip W_k matrisleri ile parametrize edilir. W kısaltması, k = 1, ..., L için tüm ağırlık matrisleri {W_k} kümesini ifade eder.

Formülasyonumuzun dikkate değer yönleri şunlardır:

  • Mimari Detaylar: Ağ açık sapma terimleri kullanmaz; bunun yerine, sapma, sabit tutulan bir girdi boyutu aracılığıyla girdi katmanında oluşturulur
  • Aktivasyon Fonksiyonu: σ(x) = x_+ = max(0, x) olarak tanımlanan ReLU aktivasyon fonksiyonunu kullanıyoruz
  • Normalleştirilmiş Temsil: g(x) = ρf(x) olarak tanımlıyoruz; burada ρ, tüm L katman boyunca ağırlık matrislerinin Frobenius normlarının çarpımını temsil eder ve f, normalleştirilmiş ağırlık matrisleri V_k kullanan karşılık gelen ağı ifade eder (ReLU aktivasyonlarının homojenlik özelliğinden yararlanarak)
  • Notasyon Kuralları: f_n, girdi x_n için normalleştirilmiş ağın çıktısını belirtmek üzere f(x_n)'yi ifade eder
  • Girdi Normalizasyonu: Tüm girdiler için ||x|| = 1 olduğunu varsayıyoruz
  • Ayrılabilirlik Koşulları: Ayrılabilirlik, tüm eğitim verileri için doğru sınıflandırma (y_n f_n > 0, ∀n) olarak tanımlanırken, ortalama ayrılabilirlik Σ y_n f_n > 0 olarak tanımlanır

Matematiksel Çerçeve

g(x) = ρf(x) ayrıştırması, ağ çıktısının ölçek (ρ) ve yön (f(x)) bileşenlerinin ayrı analizine olanak tanıyarak, normalizasyon etkileri ve marj optimizasyonu hakkında teorik içgörüleri kolaylaştırır.

3. Teorik Çerçeve

3.1 Regresyon ve Sınıflandırma Amaçlarının Karşılaştırılması

Kare kaybın analizi, regresyon optimizasyonunun neden sınıflandırma görevleri için etkili bir şekilde çalıştığını açıklığa kavuşturmalıdır. Eğitim kare kaybı minimize ederken, nihayetinde sınıflandırma performansını önemsiyoruz. Doğrusal ağların aksine, derin ağlar tipik olarak, enterpolasyon yapan çözümlere karşılık gelen birden fazla global sıfır kare kayıp minimumu sergiler. Tüm enterpolasyon yapan çözümler optimal regresyon performansına ulaşsa da, genellikle farklı marj özelliklerine ve dolayısıyla farklı beklenen sınıflandırma performansına sahiptirler.

Kritik olarak, sıfır kare kaybına ulaşmak otomatik olarak