Abstrak
Kertas ini memberikan justifikasi teori komprehensif untuk keberkesanan yang diperhatikan dalam rangkaian ReLU dalam terlatih dengan kehilangan kuasa dua untuk tugas pengelasan. Melalui analisis dinamik aliran kecerunan, kami menunjukkan penumpuan kepada penyelesaian dengan norma minimum mutlak dijangka apabila teknik penormalan seperti Normalisasi kelompok (BN) atau Normalisasi Pemberat (WN) digunakan bersama-sama dengan Pereputan Pemberat (WD). Penemuan utama kami menetapkan bahawa norma Frobenius matriks pemberat tidak ternormal berfungsi sebagai sifat utama yang membatasi ralat dijangkakan - antara semua penyelesaian hampir-interpolasi, penyelesaian dengan norma lebih kecil mempamerkan ciri margin unggul dan batasan lebih ketat pada ralat pengelasan dijangkakan.
Analisis mendedahkan sistem dinamik menjadi tunggal apabila BN digunakan tanpa WD, sementara regulasi dinamik tersirat masih mungkin dalam senario tanpa BN dan WD melalui keadaan permulaan-sifar yang mempengaruhi dinamik ke arah penyelesaian margin-tinggi. Kerangka teori menghasilkan beberapa ramalan boleh uji, termasuk peranan khusus BN dan pereputan pemberat, aspek fenomena Keruntuhan Neural yang dikenal pasti oleh Papyan, Han dan Donoho, dan kekangan dikenakan BN pada struktur pemberat rangkaian.
1. Pengenalan
Walaupun penyelidikan terdahulu telah mengenal pasti mekanisme kawalan kerumitan di sebalik generalisasi dalam rangkaian terlatih dengan fungsi kehilangan jenis-eksponen melalui kesan pemaksimuman margin asimptot, kerangka mapan ini gagal menerangkan dua pemerhatian empirikal kritikal: prestasi kuat yang ditunjukkan menggunakan peminimuman kehilangan kuasa dua, dan tingkah laku penumpuan bergantung permulaan yang diperhatikan dalam peminimuman kehilangan entropi-silang. Jurang teori ini mendorong penyiasatan fokus kami terhadap kehilangan kuasa dua dalam pengelas rangkaian dalam.
Analisis kami terutamanya mengkaji algoritma penormalan berasaskan keturunan kecerunan biasa digunakan termasuk Normalisasi Kelompok dan Normalisasi Pemberat digabungkan dengan pereputan pemberat, kerana teknik ini terbukti penting untuk latihan rangkaian dalam yang boleh dipercayai dan digunakan dalam kajian empirikal yang kami ingin terangkan. Selain itu, kami mempertimbangkan kes di mana BN dan WD tidak digunakan, menunjukkan kesan regulasi tersirat dinamik untuk pengelasan masih boleh muncul, walaupun dengan tingkah laku penumpuan sangat bergantung pada keadaan permulaan.
Motivasi Penyelidikan Utama
- Teka-teki keberkesanan kehilangan kuasa dua dalam pengelasan walaupun jangkaan teori
- Batasan teori pemaksimuman margin sedia ada untuk kehilangan eksponen
- Bukti empirikal penumpuan bergantung permulaan dalam pengoptimuman entropi-silang
- Peranan penting teknik penormalan dalam latihan rangkaian dalam moden
2. Metodologi dan Notasi
Kami mentakrifkan rangkaian dalam dengan L lapisan menggunakan fungsi pengaktifan skalar koordinat-bijak σ(z): ℝ → ℝ sebagai set fungsi g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), di mana x ∈ ℝ^d mewakili input, dan pemberat diparameterkan oleh matriks W_k, satu setiap lapisan, dengan bentuk serasi dimensi. Singkatan W menandakan set lengkap matriks pemberat {W_k} untuk k = 1, ..., L.
Aspek penting dalam formalisasi kami termasuk:
- Butiran Seni Bina: Rangkaian tidak menggunakan sebutan bias eksplisit; sebaliknya, bias dimulakan dalam lapisan input melalui satu dimensi input dikekalkan sebagai pemalar
- Fungsi Pengaktifan: Kami menggunakan fungsi pengaktifan ReLU ditakrif sebagai σ(x) = x_+ = maks(0, x)
- Perwakilan Dinormalisasi: Kami mentakrifkan g(x) = ρf(x) di mana ρ mewakili produk norma Frobenius matriks pemberat merentasi semua L lapisan, dan f menandakan rangkaian sepadan dengan matriks pemberat ternormal V_k (memanfaatkan sifat kehomogenan pengaktifan ReLU)
- Konvensyen Notasi: Kami menggunakan f_n untuk menunjukkan f(x_n), menetapkan output rangkaian ternormal untuk input x_n
- Penormalan Input: Kami andaikan ||x|| = 1 untuk semua input
- Keadaan Boleh Pisah: Kebolehpisahan ditakrif sebagai pengelasan betul untuk semua data latihan (y_n f_n > 0, ∀n), dengan kebolehpisahan purata ditakrif sebagai Σ y_n f_n > 0
Kerangka Matematik
Penguraian g(x) = ρf(x) membolehkan analisis berasingan komponen skala (ρ) dan arah (f(x)) output rangkaian, memudahkan pemahaman teori tentang kesan penormalan dan pengoptimuman margin.
3. Kerangka Teori
3.1 Objektif Regresi berbanding Pengelasan
Analisis kami tentang kehilangan kuasa dua mesti menyelaraskan mengapa pengoptimuman regresi berkesan untuk tugas pengelasan. Walaupun latihan meminimumkan kehilangan kuasa dua, kami akhirnya mengambil berat tentang prestasi pengelasan. Tidak seperti rangkaian linear, rangkaian dalam biasanya mempamerkan pelbagai minimum kehilangan kuasa dua sifar global sepadan dengan penyelesaian interpolasi. Walaupun semua penyelesaian interpolasi mencapai prestasi regresi optimum, mereka secara amnya mempunyai ciri margin berbeza dan akibatnya prestasi pengelasan dijangkakan berbeza.
Pentingnya, mencapai kehilangan kuasa dua sifar tidak automatik