স্কয়ার লসে প্রশিক্ষিত ডিপ নেটওয়ার্ক ক্লাসিফায়ারগুলিতে স্পষ্ট নিয়মিতকরণ এবং অন্তর্নিহিত পক্ষপাত

স্কয়ার লসে প্রশিক্ষিত গভীর রিলু নেটওয়ার্কগুলিতে গ্রেডিয়েন্ট ফ্লোর তাত্ত্বিক বিশ্লেষণ, স্বাভাবিকীকরণ কৌশলের মাধ্যমে স্পষ্ট নিয়মিতকরণ এবং আরম্ভের গতিবিদ্যার মাধ্যমে অন্তর্নিহিত পক্ষপাত অনুসন্ধান।
computecoin.net | PDF Size: 1.7 MB

সারসংক্ষেপ

এই গবেষণাপত্রটি শ্রেণীবিন্যাস কাজে স্কয়ার লস ব্যবহার করে প্রশিক্ষিত গভীর রিলু নেটওয়ার্কগুলির লক্ষণীয় কার্যকারিতার জন্য একটি ব্যাপক তাত্ত্বিক ব্যাখ্যা প্রদান করে। সংশ্লিষ্ট গ্রেডিয়েন্ট ফ্লো গতিবিদ্যার কঠোর বিশ্লেষণের মাধ্যমে আমরা দেখিয়েছি যে, ব্যাচ নরমালাইজেশন (BN) বা ওয়েট নরমালাইজেশন (WN) কৌশল ওয়েট ডিকে (WD) এর সাথে প্রয়োগ করা হলে পরম ন্যূনতম নর্ম সহ সমাধানে অভিসারের প্রত্যাশা করা যায়। আমাদের মূল সন্ধানটি প্রতিষ্ঠিত করে যে, অ-স্বাভাবিককৃত ওয়েট ম্যাট্রিক্সের ফ্রোবেনিয়াস নর্ম প্রত্যাশিত ত্রুটি সীমাবদ্ধ করার প্রধান বৈশিষ্ট্য - সমস্ত ইন্টারপোলেটিং-কাছাকাছি সমাধানের মধ্যে, ছোট নর্ম সহ সমাধানগুলি উন্নত মার্জিন বৈশিষ্ট্য এবং প্রত্যাশিত শ্রেণীবিন্যাস ত্রুটির উপর আরও শক্ত সীমা প্রদর্শন করে।

বিশ্লেষণে প্রকাশ পেয়েছে যে, ডব্লিউডি ছাড়া বিএন ব্যবহার করা হলে গতিশীল ব্যবস্থাটি একক হয়ে যায়, অন্যদিকে শূন্য-আরম্ভ অবস্থার মাধ্যমে বিএন এবং ডব্লিউডি উভয়েরই অভাবের পরিস্থিতিতে অন্তর্নিহিত গতিশীল নিয়মিতকরণ সম্ভব থাকে, যা গতিবিদ্যাকে উচ্চ-মার্জিন সমাধানের দিকে পক্ষপাতদুষ্ট করে। এই তাত্ত্বিক কাঠামোটি বেশ কয়েকটি পরীক্ষাযোগ্য ভবিষ্যদ্বাণী তৈরি করে, যার মধ্যে রয়েছে বিএন এবং ওয়েট ডিকের নির্দিষ্ট ভূমিকা, পাপিয়ান, হান এবং ডোনোহো দ্বারা চিহ্নিত নিউরাল কোলাপ্স ঘটনার দিকসমূহ, এবং নেটওয়ার্ক ওয়েট কাঠামোর উপর বিএন দ্বারা আরোপিত সীমাবদ্ধতা।

১. ভূমিকা

যদিও পূর্ববর্তী গবেষণায় এসিম্পটোটিক মার্জিন সর্বাধিকীকরণ প্রভাবের মাধ্যমে এক্সপোনেনশিয়াল-টাইপ লস ফাংশনে প্রশিক্ষিত নেটওয়ার্কগুলিতে জেনারেলাইজেশনের অন্তর্নিহিত জটিলতা নিয়ন্ত্রণ ব্যবস্থা চিহ্নিত করা হয়েছে, তবে এই প্রতিষ্ঠিত কাঠামোগুলি দুটি গুরুত্বপূর্ণ অভিজ্ঞতামূলক পর্যবেক্ষণ ব্যাখ্যা করতে ব্যর্থ হয়: স্কয়ার লস মিনিমাইজেশন ব্যবহার করে প্রদর্শিত শক্তিশালী কর্মক্ষমতা, এবং ক্রস-এনট্রপি লস মিনিমাইজেশনে পর্যবেক্ষণকৃত আরম্ভ-নির্ভর অভিসার আচরণ। এই তাত্ত্বিক ফাঁকটি গভীর নেটওয়ার্ক ক্লাসিফায়ারগুলিতে স্কয়ার লসের উপর আমাদের কেন্দ্রীভূত তদন্তকে অনুপ্রাণিত করে।

আমাদের বিশ্লেষণ প্রাথমিকভাবে সাধারণভাবে ব্যবহৃত গ্রেডিয়েন্ট ডিসেন্ট-ভিত্তিক স্বাভাবিকীকরণ অ্যালগরিদম পরীক্ষা করে, যার মধ্যে রয়েছে ব্যাচ নরমালাইজেশন এবং ওয়েট নরমালাইজেশন ওয়েট ডিকের সাথে সংমিশ্রণে, কারণ এই কৌশলগুলি গভীর নেটওয়ার্কগুলির নির্ভরযোগ্য প্রশিক্ষণের জন্য অপরিহার্য বলে প্রমাণিত হয় এবং আমরা যে অভিজ্ঞতামূলক গবেষণাগুলি ব্যাখ্যা করতে চাই সেগুলিতে এগুলি employed ছিল। অতিরিক্তভাবে, আমরা এমন ক্ষেত্র বিবেচনা করি যেখানে বিএন বা ডব্লিউডি কোনোটিই ব্যবহার করা হয় না, এটি প্রদর্শন করে যে শ্রেণীবিন্যাসের জন্য গতিশীল অন্তর্নিহিত নিয়মিতকরণ প্রভাব এখনও উদ্ভূত হতে পারে, যদিও অভিসার আচরণ দৃ strongly়ভাবে প্রারম্ভিক অবস্থার উপর নির্ভরশীল।

গবেষণার মূল অনুপ্রেরণা

  • তাত্ত্বিক প্রত্যাশা সত্ত্বেও শ্রেণীবিন্যাসে স্কয়ার লসের কার্যকারিতার ধাঁধা
  • এক্সপোনেনশিয়াল লসগুলির জন্য বিদ্যমান মার্জিন সর্বাধিকীকরণ তত্ত্বের সীমাবদ্ধতা
  • ক্রস-এনট্রপি অপ্টিমাইজেশনে আরম্ভ-নির্ভর অভিসারের অভিজ্ঞতামূলক প্রমাণ
  • আধুনিক গভীর নেটওয়ার্ক প্রশিক্ষণে স্বাভাবিকীকরণ কৌশলগুলির অপরিহার্য ভূমিকা

২. পদ্ধতি এবং স্বরলিপি

আমরা এল স্তর সহ একটি গভীর নেটওয়ার্ককে স্থানাঙ্ক-ভিত্তিক স্কেলার অ্যাক্টিভেশন ফাংশন σ(z): ℝ → ℝ ব্যবহার করে ফাংশনের সেট হিসাবে সংজ্ঞায়িত করি g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), যেখানে x ∈ ℝ^d ইনপুটকে প্রতিনিধিত্ব করে, এবং ওজনগুলি ম্যাট্রিক্স W_k দ্বারা প্যারামিটারাইজড হয়, প্রতি স্তরে একটি, মাত্রাগতভাবে সামঞ্জস্যপূর্ণ আকার সহ। সংক্ষিপ্তরূপ W ওজন ম্যাট্রিক্সের সম্পূর্ণ সেট {W_k} কে k = 1, ..., L এর জন্য বোঝায়।

আমাদের ফর্মালাইজেশনের উল্লেখযোগ্য দিকগুলির মধ্যে রয়েছে:

  • আর্কিটেকচার বিবরণ: নেটওয়ার্কে কোনো স্পষ্ট বায়াস টার্ম ব্যবহার করা হয় না; পরিবর্তে, বায়াস ইনপুট স্তরে একটি ইনপুট মাত্রাকে ধ্রুবক হিসাবে রেখে ইনস্ট্যান্টিয়েট করা হয়
  • অ্যাক্টিভেশন ফাংশন: আমরা রিলু অ্যাক্টিভেশন ফাংশন ব্যবহার করি যা σ(x) = x_+ = max(0, x) হিসাবে সংজ্ঞায়িত
  • স্বাভাবিককৃত উপস্থাপনা: আমরা g(x) = ρf(x) সংজ্ঞায়িত করি যেখানে ρ সমস্ত এল স্তর জুড়ে ওজন ম্যাট্রিক্সের ফ্রোবেনিয়াস নর্মের গুণফলকে প্রতিনিধিত্ব করে, এবং f সংশ্লিষ্ট নেটওয়ার্ককে বোঝায় স্বাভাবিককৃত ওজন ম্যাট্রিক্স V_k সহ (রিলু অ্যাক্টিভেশনের সমজাতীয়তা বৈশিষ্ট্যের সুবিধা নিয়ে)
  • স্বরলিপি প্রচল: আমরা f_n ব্যবহার করি f(x_n) বোঝাতে, ইনপুট x_n এর জন্য স্বাভাবিককৃত নেটওয়ার্কের আউটপুট নির্দেশ করে
  • ইনপুট স্বাভাবিকীকরণ: আমরা ধরে নিই যে সমস্ত ইনপুটের জন্য ||x|| = 1
  • বিচ্ছেদযোগ্যতা শর্ত: বিচ্ছেদযোগ্যতাকে সমস্ত প্রশিক্ষণ ডেটার জন্য সঠিক শ্রেণীবিন্যাস হিসাবে সংজ্ঞায়িত করা হয় (y_n f_n > 0, ∀n), গড় বিচ্ছেদযোগ্যতাকে Σ y_n f_n > 0 হিসাবে সংজ্ঞায়িত করা হয়

গাণিতিক কাঠামো

পচন g(x) = ρf(x) নেটওয়ার্ক আউটপুটের স্কেল (ρ) এবং দিক (f(x)) উপাদানগুলির পৃথক বিশ্লেষণ সক্ষম করে, যা স্বাভাবিকীকরণ প্রভাব এবং মার্জিন অপ্টিমাইজেশনে তাত্ত্বিক অন্তর্দৃষ্টি সহজতর করে।

৩. তাত্ত্বিক কাঠামো

৩.১ রিগ্রেশন বনাম শ্রেণীবিন্যাস উদ্দেশ্য

স্কয়ার লসের আমাদের বিশ্লেষণকে অবশ্যই মিলিত করতে হবে যে কেন রিগ্রেশন অপ্টিমাইজেশন শ্রেণীবিন্যাসের কাজগুলির জন্য কার্যকরভাবে কাজ করে। যদিও প্রশিক্ষণ স্কয়ার লস হ্রাস করে, আমরা শেষ পর্যন্ত শ্রেণীবিন্যাসের কর্মক্ষমতা নিয়ে যত্নশীল। লিনিয়ার নেটওয়ার্কগুলির বিপরীতে, গভীর নেটওয়ার্কগুলি সাধারণত একাধিক গ্লোবাল জিরো স্কয়ার লস মিনিমা প্রদর্শন করে যা ইন্টারপোলেটিং সমাধানের সাথে মিলে যায়। যদিও সমস্ত ইন্টারপোলেটিং সমাধান সর্বোত্তম রিগ্রেশন কর্মক্ষমতা অর্জন করে, তবে তাদের সাধারণত বিভিন্ন মার্জিন বৈশিষ্ট্য থাকে এবং ফলস্বরূপ বিভিন্ন প্রত্যাশিত শ্রেণীবিন্যাস কর্মক্ষমতা থাকে।

গুরুত্বপূর্ণভাবে, জিরো স্কয়ার লস অর্জন করা স্বয়ংক্রিয়ভাবে # দৈর্ঘ্য সীমাবদ্ধতা এড়াতে API সীমাবদ্ধতা