Dondoo
Makala hii inatoa uthibitisho wa kinadharia wa umiliki wa mitandao ya kina ya ReLU inayofunzwa kwa hasara ya mraba katika kazi za utambulishaji. Kupitia uchambuzi mkali wa mienendo ya mtiririko wa gradient, tunathibitisha kuwa mkazo wa mwisho wa kiwango cha chini kabisa unatarajiwa wakati mbinu za kawaida kama Normalization ya Kundi (BN) au Normalization ya Uzito (WN) zinatumika pamoja na Mvuto wa Uzito (WD). Utafiti wetu mkuu unathibitisha kuwa kiwango cha Frobenius cha matriki za uzito zisizo na kipimo ndicho kiashiria kikuu kinachozuia makosa yanayotarajiwa - miongoni mwa suluhisho zote za karibu, zile zenye viwango vidogo zinaonyesha sifa bora za kando na mipaka madhubuti zaidi kwenye makosa yanayotarajiwa ya utambulishaji.
Uchambuzi unaonyesha kuwa mfumo wa kimienendo unakuwa wa pekee wakati BN inatumika bila WD, huku urekebishaji wa ndani wa kimienendo ukibaki kuwezekana katika hali zenye ukosekanaji wa BN na WD kupitia hali ya mwanzo ya sifuri inayoelekeza mienendo kuelekea suluhisho za kando za juu. Mfumo huu wa kinadharia unatoa utabiri mbalimbali unaoweza kukaguliwa, ikiwemo majukumu maalum ya BN na mvuto wa uzito, mambo ya uzinduzi wa mgandamizo wa Neural uliotambuliwa na Papyan, Han na Donoho, na vikwazo vinavyowekwa na BN kwenye miundo ya uzito ya mtandao.
1. Utangulizi
Ingawa utafiti wa awali umebainisha utaratibu wa udhibiti wa utata unaosababisha ujumlaaji katika mitandao inayofunzwa kwa kazi za hasara za aina ya kielelezo kupitia athari za upeo wa kando, mifumo hii imara haitoshelezi kuelezea uchunguzi mbili muhimu: utendaji bora unaoonyeshwa kwa kutumia kupunguza hasara ya mraba, na tabia ya mkazo inayotegemea uanzishaji inayoonekana katika kupunguza hasara ya msalaba. Pengo hili la kinadharia ndio linalochochea uchunguzi wetu wa kina wa hasara ya mraba katika vitambulisho vya mitandao ya kina.
Uchambuzi wetu unachunguza hasa algoriti za kawaida za normalization zinazotumia gradient descent ikiwemo Normalization ya Kundi na Normalization ya Uzito pamoja na mvuto wa uzito, kwani mbinu hizi zinathibitika kuwa muhimu kwa mafunzo ya kuaminika ya mitandao ya kina na zilitumika katika masomo ya kiuchumi tunayotaka kuyaelezea. Zaidi ya hayo, tunazingatia kesi ambapo hakuna BN au WD inayotumika, tukionyesha kuwa athari za urekebishaji wa ndani wa kimienajo kwa utambulishaji bado zinaweza kutokea, ingawa tabia ya mkazo inategemea kwa kiasi kikubwa hali ya mwanzo.
Sababu Kuu za Utafiti
- Fumbo la ufanisi wa hasara ya mraba katika utambulishaji licha ya matarajio ya kinadharia
- Ukomo wa nadharia zilizopo za upeo wa kando kwa hasara za kielelezo
- Ushahidi wa kiuchumi wa mkazo unaotegemea uanzishaji katika ukuzaji wa msalaba
- Jukumu muhimu la mbinu za normalization katika mafunzo ya kisasa ya mitandao ya kina
2. Methodolojia na Nukuu
Tunafafanua mtandao wa kina wenye tabaka L kwa kutumia kazi za activation za scalar kwa mwelekeo mmoja σ(z): ℝ → ℝ kama seti ya kazi g(W; x) = (W_L σ(W_{L-1} ··· σ(W_1 x))), ambapo x ∈ ℝ^d inawakilisha ingizo, na uzito umedhamiriwa na matriki W_k, moja kwa kila tabaka, zenye maumbo yanayolingana. Nukuu fupi W inaashiria seti kamili ya matriki za uzito {W_k} kwa k = 1, ..., L.
Mambo muhimu ya uundaji wetu ni pamoja na:
- Maelezo ya Usanifu: Mtandao hautumii istilahi wazi za upendeleo; badala yake, upendeleo unaanzishwa kwenye tabaka la ingizo kupitia mwelekeo mmoja wa ingizo unaodumishwa kuwa mara kwa mara
- Kazi ya Activation: Tunatumia kazi ya activation ya ReLU inayofafanuliwa kama σ(x) = x_+ = upeo(0, x)
- Uwakilishi Ulio na Kipimo: Tunafafanua g(x) = ρf(x) ambapo ρ inawakilisha zao la viwango vya Frobenius vya matriki za uzito katika tabaka zote L, na f inaashiria mtandao unaolingana na matriki za uzito zilizo na kipimo V_k (kwa kutumia sifa ya usawa wa activations za ReLU)
- Mikataba ya Kinukuu: Tunatumia f_n kuonyesha f(x_n), tukibainisha tokeo la mtandao ulio na kipimo kwa ingizo x_n
- Kipimo cha Ingizo: Tunadhania ||x|| = 1 kwa ingizo zote
- Hali ya Kutenganisha: Kutenganisha kunafafanuliwa kama utambulishaji sahihi kwa data zote za mafunzo (y_n f_n > 0, ∀n), na kutenganisha kwa wastani kunafafanuliwa kama Σ y_n f_n > 0
Mfumo wa Kihisabati
Mtengano g(x) = ρf(x) unaruhusu uchambuzi tofauti wa kiwango (ρ) na sehemu za mwelekeo (f(x)) za tokeo la mtandao, na hivyo kuwezesha uelewa wa kinadharia kuhusu athari za normalization na ukuzaji wa kando.
3. Mfumo wa Kinadharia
3.1 Malengo ya Regression dhidi ya Malengo ya Utambulishaji
Uchambuzi wetu wa hasara ya mraba unalazimisha kuelewa kwa nini ukuzaji wa regression unafanya kazi kwa ufanisi kwa kazi za utambulishaji. Ingawa mafunzo hupunguza hasara ya mraba, hatimaye tunajali utendaji wa utambulishaji. Tofauti na mitandao ya mstari, mitandao ya kina kwa kawaida huonyesha kiwango cha chini cha hasara ya mraba ya kimataifa inayolingana na suluhisho za kuingiliana. Ingawa suluhisho zote za kuingiliana hufikia utendaji bora wa regression, kwa ujumla zina sifa tofauti za kando na hivyo utendaji tofauti unaotarajiwa wa utambulishaji.
Muhimu zaidi, kufikia hasara ya sifuri ya mraba haifanyi kiotomatiki