वर्ग हानि से प्रशिक्षित गहरे नेटवर्क वर्गीकरणकर्ताओं में स्पष्ट नियमितीकरण और अंतर्निहित पूर्वाग्रह

वर्ग हानि से प्रशिक्षित गहरे ReLU नेटवर्कों में ग्रेडिएंट प्रवाह का सैद्धांतिक विश्लेषण, सामान्यीकरण तकनीकों द्वारा स्पष्ट नियमितीकरण और आरंभिक गतिशीलता के माध्यम से अंतर्निहित पूर्वाग्रह की खोज।
computecoin.net | PDF Size: 1.7 MB

सारांश

यह शोध पत्र वर्गीकरण कार्यों में वर्ग हानि से प्रशिक्षित गहरे ReLU नेटवर्कों की प्रभावशीलता के लिए एक व्यापक सैद्धांतिक आधार प्रदान करता है। संबद्ध ग्रेडिएंट प्रवाह गतिशीलता के कठोर विश्लेषण के माध्यम से, हम प्रदर्शित करते हैं कि निरपेक्ष न्यूनतम मानदंड वाले समाधानों में अभिसरण की अपेक्षा तब की जाती है जब बैच सामान्यीकरण (BN) या वजन सामान्यीकरण (WN) जैसी तकनीकों को वजन क्षय (WD) के साथ नियोजित किया जाता है। हमारा केंद्रीय निष्कर्ष स्थापित करता है कि असामान्यीकृत वजन मैट्रिक्स के फ्रोबेनियस मानदंड का अपेक्षित त्रुटि को परिबद्ध करने वाला प्राथमिक गुणधर्म के रूप में कार्य होता है - सभी अंतर्वेशन के निकट समाधानों में, छोटे मानदंड वाले समाधान उत्कृष्ट मार्जिन विशेषताएं और अपेक्षित वर्गीकरण त्रुटि पर सख्त सीमाएं प्रदर्शित करते हैं।

विश्लेषण से पता चलता है कि गतिशील प्रणाली विलक्षण हो जाती है जब BN का उपयोग WD के बिना किया जाता है, जबकि शून्य-आरंभिक स्थितियों के माध्यम से गतिशीलता को उच्च-मार्जिन समाधानों की ओर पूर्वाग्रहित करते हुए, अंतर्निहित गतिशील नियमितीकरण उन परिदृश्यों में भी संभव रहता है जहां BN और WD दोनों का अभाव होता है। सैद्धांतिक ढांचा कई परीक्षण योग्य पूर्वानुमान उत्पन्न करता है, जिनमें BN और वजन क्षय की विशिष्ट भूमिकाएं, पापयान, हान और डोनोहो द्वारा पहचाने गए न्यूरल कोलैप्स घटना के पहलू, और नेटवर्क वजन संरचनाओं पर BN द्वारा लगाए गए प्रतिबंध शामिल हैं।

1. परिचय

हालांकि पूर्व शोध ने स्पर्शोन्मुख मार्जिन अधिकतमीकरण प्रभावों के माध्यम से घातीय-प्रकार की हानि फलनों से प्रशिक्षित नेटवर्कों में सामान्यीकरण के अंतर्निहित जटिलता नियंत्रण तंत्रों की पहचान की है, ये स्थापित ढांचे दो महत्वपूर्ण अनुभवजन्य अवलोकनों की व्याख्या करने में विफल रहे हैं: वर्ग हानि न्यूनीकरण का उपयोग करके प्रदर्शित मजबूत प्रदर्शन, और क्रॉस-एन्ट्रॉपी हानि न्यूनीकरण में देखा गया आरंभिकता-निर्भर अभिसरण व्यवहार। यह सैद्धांतिक अंतराल गहरे नेटवर्क वर्गीकरणकर्ताओं में वर्ग हानि के हमारे केंद्रित अन्वेषण को प्रेरित करता है।

हमारा विश्लेषण मुख्य रूप से सामान्यतः उपयोग किए जाने वाले ग्रेडिएंट डिसेंट-आधारित सामान्यीकरण एल्गोरिदम की जांच करता है, जिनमें बैच सामान्यीकरण और वजन सामान्यीकरण वजन क्षय के साथ संयुक्त शामिल हैं, क्योंकि ये तकनीकें गहरे नेटवर्कों की विश्वसनीय ट्रेनिंग के लिए आवश्यक सिद्ध हुई हैं और उन अनुभवजन्य अध्ययनों में नियोजित की गई थीं जिनकी हम व्याख्या करना चाहते हैं। इसके अतिरिक्त, हम उस मामले पर विचार करते हैं जहां न तो BN और न ही WD का उपयोग किया जाता है, यह प्रदर्शित करते हुए कि वर्गीकरण के लिए गतिशील अंतर्निहित नियमितीकरण प्रभाव अभी भी उत्पन्न हो सकते हैं, हालांकि अभिसरण व्यवहार मजबूती से आरंभिक स्थितियों पर निर्भर करता है।

मुख्य शोध प्रेरणाएं

  • सैद्धांतिक अपेक्षाओं के बावजूद वर्गीकरण में वर्ग हानि की प्रभावशीलता की पहेली
  • घातीय हानियों के लिए मौजूदा मार्जिन अधिकतमीकरण सिद्धांतों की सीमाएं
  • क्रॉस-एन्ट्रॉपी अनुकूलन में आरंभिकता-निर्भर अभिसरण के अनुभवजन्य प्रमाण
  • आधुनिक गहरे नेटवर्क प्रशिक्षण में सामान्यीकरण तकनीकों की आवश्यक भूमिका

2. प्रणाली एवं संकेतन

हम L परतों वाले एक गहरे नेटवर्क को निर्देशांक-वार अदिश सक्रियण फलन σ(z): ℝ → ℝ का उपयोग करते हुए फलनों के समुच्चय g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))) के रूप में परिभाषित करते हैं, जहां x ∈ ℝ^d निवेश को निरूपित करता है, और वजनों को मैट्रिक्स W_k द्वारा पैरामीटराइज़ किया जाता है, प्रति परत एक, आयामी रूप से संगत आकारों के साथ। संक्षिप्त रूप W वजन मैट्रिक्स के पूर्ण समुच्चय {W_k} को k = 1, ..., L के लिए निरूपित करता है।

हमारे औपचारिकीकरण के उल्लेखनीय पहलुओं में शामिल हैं:

  • आर्किटेक्चर विवरण: नेटवर्क कोई स्पष्ट बायस पदों का उपयोग नहीं करता है; इसके बजाय, बायस को एक निवेश आयाम को एक स्थिरांक के रूप में बनाए रखते हुए निवेश परत में स्थापित किया जाता है
  • सक्रियण फलन: हम ReLU सक्रियण फलन का उपयोग करते हैं, जिसे σ(x) = x_+ = max(0, x) के रूप में परिभाषित किया गया है
  • सामान्यीकृत निरूपण: हम g(x) = ρf(x) को परिभाषित करते हैं, जहां ρ सभी L परतों में वजन मैट्रिक्स के फ्रोबेनियस मानदंडों के गुणनफल को निरूपित करता है, और f संबंधित नेटवर्क को सामान्यीकृत वजन मैट्रिक्स V_k के साथ निरूपित करता है (ReLU सक्रियणों की समांगीता गुणधर्म का लाभ उठाते हुए)
  • संकेतन परंपराएं: हम f_n का उपयोग f(x_n) को इंगित करने के लिए करते हैं, जो निवेश x_n के लिए सामान्यीकृत नेटवर्क के निर्गम को नामित करता है
  • निवेश सामान्यीकरण: हम मानते हैं कि सभी निवेशों के लिए ||x|| = 1 है
  • पृथक्करणीयता शर्तें: पृथक्करणीयता को सभी प्रशिक्षण डेटा के लिए सही वर्गीकरण (y_n f_n > 0, ∀n) के रूप में परिभाषित किया जाता है, जबकि औसत पृथक्करणीयता को Σ y_n f_n > 0 के रूप में परिभाषित किया जाता है

गणितीय ढांचा

विघटन g(x) = ρf(x) नेटवर्क निर्गम के पैमाने (ρ) और दिशा (f(x)) घटकों के अलग-अलग विश्लेषण को सक्षम बनाता है, जिससे सामान्यीकरण प्रभावों और मार्जिन अनुकूलन में सैद्धांतिक अंतर्दृष्टि सुगम होती है।

3. सैद्धांतिक ढांचा

3.1 प्रतीपगमन बनाम वर्गीकरण उद्देश्य

वर्ग हानि के हमारे विश्लेषण को यह सामंजस्य स्थापित करना चाहिए कि प्रतीपगमन अनुकूलन वर्गीकरण कार्यों के लिए प्रभावी ढंग से क्यों प्रदर्शन करता है। हालांकि प्रशिक्षण वर्ग हानि को न्यूनतम करता है, हम अंततः वर्गीकरण प्रदर्शन की परवाह करते हैं। रैखिक नेटवर्कों के विपरीत, गहरे नेटवर्क आम तौर पर अंतर्वेशन समाधानों के अनुरूप कई वैश्विक शून्य वर्ग हानि न्यूनतम प्रदर्शित करते हैं। हालांकि सभी अंतर्वेशन समाधान इष्टतम प्रतीपगमन प्रदर्शन प्राप्त करते हैं, उनमें आम तौर पर अलग-अलग मार्जिन विशेषताएं होती हैं और परिणामस्वरूप अलग-अलग अपेक्षित वर्गीकरण प्रदर्शन होता है।

महत्वपूर्ण रूप से, शून्य वर्ग हानि प्राप्त करना स्वचालित रूप से उच्च मार्जिन की गारंटी नहीं देता है।