تنظیم‌سازی صریح و سوگیری ضمنی در طبقه‌بندهای شبکه عمیق آموزش‌دیده با تابع هزینه مربعی

تحلیل نظری جریان گرادیان در شبکه‌های ReLU عمیق آموزش‌دیده با تابع هزینه مربعی، بررسی تنظیم‌سازی صریح از طریق تکنیک‌های نرمال سازی و سوگیری ضمنی در پویایی‌های مقداردهی اولیه
computecoin.net | PDF Size: 1.7 MB

چکیده

این مقاله توجیه نظری جامعی برای اثربخشی مشاهده‌شده شبکه‌های عمیق ReLU آموزش‌دیده با تابع هزینه مربعی در وظایف طبقه‌بندی ارائه می‌دهد. از طریق تحلیل دقیق پویایی‌های جریان گرادیان مرتبط، نشان می‌دهیم که همگرایی به راه‌حل‌های با نرم مطلق کمینه زمانی انتظار می‌رود که تکنیک‌های نرمال‌سازی مانند نرمال‌سازی دسته‌ای (BN) یا نرمال‌سازی وزن (WN) همراه با کاهش وزن (WD) به کار روند. یافته محوری ما تأیید می‌کند که نرم فروبنیوس ماتریس‌های وزن نرمال‌سازی‌نشده به عنوان ویژگی اصلی محدودکننده خطای مورد انتظار عمل می‌کند - در میان تمام راه‌حل‌های نزدیک به درون‌یابی، آن‌هایی با نرم‌های کوچک‌تر، ویژگی‌های حاشیه برتر و کران‌های تنگ‌تری روی خطای طبقه‌بندی مورد انتظار نشان می‌دهند.

تحلیل آشکار می‌سازد که سیستم دینامیکی زمانی که BN بدون WD استفاده شود تکین می‌شود، در حالی که تنظیم‌سازی دینامیکی ضمنی در سناریوهای فاقد هر دو BN و WD از طریق شرایط اولیه صفر که پویایی‌ها را به سمت راه‌حل‌های با حاشیه بالا سوگیری می‌کنند، همچنان امکان‌پذیر باقی می‌ماند. چارچوب نظری چندین پیش‌بینی قابل آزمایش تولید می‌کند، از جمله نقش‌های خاص BN و کاهش وزن، جنبه‌های پدیده فروپاشی عصبی شناسایی‌شده توسط پاپیان، هان و دونهو، و محدودیت‌های تحمیل‌شده توسط BN روی ساختارهای وزن شبکه.

۱. مقدمه

در حالی که تحقیقات پیشین مکانیسم‌های کنترل پیچیدگی زیربنای تعمیم در شبکه‌های آموزش‌دیده با توابع هزینه نمایی را از طریق اثرات بیشینه‌سازی حاشیه مجانبی شناسایی کرده‌اند، این چارچوب‌های تثبیت‌شده قادر به توضیح دو مشاهده تجربی حیاتی نیستند: عملکرد قوی نشان‌داده‌شده با استفاده از کمینه‌سازی تابع هزینه مربعی، و رفتار همگرایی وابسته به مقداردهی اولیه مشاهده‌شده در کمینه‌سازی تابع هزینه آنتروپی متقابل. این شکاف نظری، انگیزه تحقیق متمرکز ما بر روی تابع هزینه مربعی در طبقه‌بندهای شبکه عمیق را فراهم می‌کند.

تحلیل ما عمدتاً الگوریتم‌های نرمال‌سازی مبتنی بر کاهش گرادیان متداول شامل نرمال‌سازی دسته‌ای و نرمال‌سازی وزن ترکیب‌شده با کاهش وزن را بررسی می‌کند، زیرا این تکنیک‌ها برای آموزش قابل اطمینان شبکه‌های عمیق ضروری ثابت شده‌اند و در مطالعات تجربی که ما به دنبال توضیح آن‌ها هستیم به کار رفته‌اند. علاوه بر این، حالتی را در نظر می‌گیریم که هیچ‌کدام از BN یا WD استفاده نمی‌شوند و نشان می‌دهیم که اثرات تنظیم‌سازی ضمنی دینامیکی برای طبقه‌بندی همچنان می‌تواند ظهور یابد، اگرچه با رفتار همگرایی شدیداً وابسته به شرایط اولیه.

انگیزه‌های کلیدی تحقیق

  • معماي اثربخشي تابع هزينه مربعی در طبقه‌بندی علی‌رغم انتظارات نظری
  • محدوديت‌های نظريه‌های موجود بيشينه‌سازی حاشيه برای توابع هزينه نمایی
  • شواهد تجربی از همگرایی وابسته به مقداردهی اولیه در بهينه‌سازی آنتروپی متقابل
  • نقش اساسی تکنيک‌های نرمال‌سازی در آموزش شبکه‌های عميق مدرن

۲. روش‌شناسی و نمادگذاری

ما یک شبکه عمیق با L لایه را با استفاده از توابع فعال‌سازی اسکالر مختصاتی σ(z): ℝ → ℝ به عنوان مجموعه‌ای از توابع g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))) تعریف می‌کنیم، که در آن x ∈ ℝ^d نمایانگر ورودی است و وزن‌ها توسط ماتریس‌های W_k، یکی برای هر لایه، با اشکال سازگار از نظر ابعادی پارامتریزه می‌شوند. نماد اختصاری W نشان‌دهنده مجموعه کامل ماتریس‌های وزن {W_k} برای k = 1, ..., L است.

جنبه‌های قابل توجه صوری‌سازی ما شامل موارد زیر است:

  • جزئیات معماری: شبکه از هیچ جمله بایاس صریحی استفاده نمی‌کند؛ در عوض، بایاس در لایه ورودی از طریق یک بعد ورودی که به عنوان ثابت نگهداری می‌شود، نمونه‌سازی می‌شود
  • تابع فعال‌سازی: ما از تابع فعال‌سازی ReLU تعریف‌شده به صورت σ(x) = x_+ = max(0, x) استفاده می‌کنیم
  • نمایش نرمال‌شده: ما g(x) = ρf(x) را تعریف می‌کنیم که در آن ρ نمایانگر حاصل‌ضرب نرم‌های فروبنیوس ماتریس‌های وزن در تمامی L لایه است و f نشان‌دهنده شبکه متناظر با ماتریس‌های وزن نرمال‌شده V_k است (با بهره‌گیری از خاصیت همگنی فعال‌سازی‌های ReLU)
  • قراردادهای نمادگذاری: ما از f_n برای نشان‌دادن f(x_n) استفاده می‌کنیم که خروجی شبکه نرمال‌شده برای ورودی x_n را تعیین می‌کند
  • نرمال‌سازی ورودی: فرض می‌کنیم ||x|| = 1 برای تمامی ورودی‌ها
  • شرایط تفکیک‌پذیری: تفکیک‌پذیری به عنوان طبقه‌بندی صحیح برای تمامی داده‌های آموزشی تعریف می‌شود (y_n f_n > 0, ∀n)، با تفکیک‌پذیری میانگین تعریف‌شده به صورت Σ y_n f_n > 0

چارچوب ریاضی

تجزیه g(x) = ρf(x) امکان تحلیل جداگانه مؤلفه‌های مقیاس (ρ) و جهت (f(x)) خروجی شبکه را فراهم می‌کند و بینش‌های نظری را در مورد اثرات نرمال‌سازی و بهینه‌سازی حاشیه تسهیل می‌کند.

۳. چارچوب نظری

۳.۱ اهداف رگرسیون در مقابل اهداف طبقه‌بندی

تحلیل ما از تابع هزینه مربعی باید توضیح دهد که چرا بهینه‌سازی رگرسیون به طور مؤثر برای وظایف طبقه‌بندی عمل می‌کند. در حالی که آموزش، تابع هزینه مربعی را کمینه می‌کند، در نهایت عملکرد طبقه‌بندی برای ما مهم است. برخلاف شبکه‌های خطی، شبکه‌های عمیق معمولاً چندین کمینه سراسری صفر تابع هزینه مربعی متناظر با راه‌حل‌های درون‌یاب نشان می‌دهند. اگرچه تمامی راه‌حل‌های درون‌یاب به عملکرد رگرسیون بهینه دست می‌یابند، اما عموماً دارای ویژگی‌های حاشیه متفاوت و در نتیجه عملکرد طبقه‌بندی مورد انتظار متفاوتی هستند.

نکته حیاتی این است که دستیابی به تابع هزینه مربعی صفر به طور خودکار