分類目錄:《深入理解深度學(xué)習(xí)》總目錄
目前為止,我們討論對參數(shù)添加約束或懲罰時(shí),一直是相對于固定的區(qū)域或點(diǎn)。例如, L 2 L^2 L2正則化(或權(quán)重衰減)對參數(shù)偏離零的固定值進(jìn)行懲罰。然而,有時(shí)我們可能需要其他的方式來表達(dá)我們對模型參數(shù)適當(dāng)值的先驗(yàn)知識。有時(shí)候,我們可能無法準(zhǔn)確地知道應(yīng)該使用什么樣的參數(shù),但我們根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性。我們經(jīng)常想要表達(dá)的一種常見依賴是某些參數(shù)應(yīng)當(dāng)彼此接近??紤]以下情形:我們有兩個(gè)模型執(zhí)行相同的分類任務(wù)(具有相同類別),但輸入分布稍有不同。形式地,我們有參數(shù)為 w ( A ) w^{(A)} w(A)的模型A和參數(shù)為 w ( B ) w^{(B)} w(B)的模型B。這兩種模型將輸入映射到兩個(gè)不同但相關(guān)的輸出: y ^ ( A ) = f ( w ( A ) , x ) \hat{y}^{(A)} = f(w^{(A)}, x) y^?(A)=f(w(A),x)和 y ^ ( B ) = f ( w ( B ) , x ) \hat{y}^{(B)} = f(w^{(B)}, x) y^?(B)=f(w(B),x)。
我們可以想象,這些任務(wù)會足夠相似(或許具有相似的輸入和輸出分布),因此我們認(rèn)為模型參數(shù)應(yīng)彼此靠近: ? i , w i ( A ) \forall i, w^{(A)}_i ?i,wi(A)?應(yīng)該與 w i ( B ) w^{(B)}_i wi(B)?接近。我們可以通過正則化利用此信息。具體來說,我們可以使用以下形式的參數(shù)范數(shù)懲罰: Ω ( w ( A ) , w ( B ) ) = ∣ ∣ w ( A ) ? w ( B ) ∣ ∣ 2 2 \Omega(w^{(A)}, w^{(B)}) = ||w^{(A)} - w^{(B)}||^2_2 Ω(w(A),w(B))=∣∣w(A)?w(B)∣∣22?。在這里我們使用 L 2 L^2 L2懲罰,但也可以使用其他選擇。
這種方法由Lasserre提出,正則化一個(gè)模型(監(jiān)督模式下訓(xùn)練的分類器)的參數(shù),使其接近另一個(gè)無監(jiān)督模式下訓(xùn)練的模型(捕捉觀察到的輸入數(shù)據(jù)的分布)的參數(shù)。構(gòu)造的這種架構(gòu)使得分類模型中的許多參數(shù)能與無監(jiān)督模型中對應(yīng)的參數(shù)匹配。參數(shù)范數(shù)懲罰是正則化參數(shù)使其彼此接近的一種方式,而更流行的方法是使用約束:強(qiáng)迫某些參數(shù)相等。由于我們將各種模型或模型組件解釋為共享唯一的一組參數(shù),這種正則化方法通常被稱為參數(shù)共享(Parameter Sharing)。和正則化參數(shù)使其接近(通過范數(shù)懲罰)相比,參數(shù)共享的一個(gè)顯著優(yōu)點(diǎn)是,只有參數(shù)(唯一一個(gè)集合)的子集需要被存儲在內(nèi)存中。對于某些特定模型,如卷積神經(jīng)網(wǎng)絡(luò),這可能可以顯著減少模型所占用的內(nèi)存。
目前為止,最流行和廣泛使用的參數(shù)共享出現(xiàn)在應(yīng)用于計(jì)算機(jī)視覺的卷積神經(jīng)網(wǎng)絡(luò)(CNN)中。自然圖像有許多統(tǒng)計(jì)屬性是對轉(zhuǎn)換不變的。例如,貓的照片即使向右邊移了一個(gè)像素,仍保持貓的照片。CNN通過在圖像多個(gè)位置共享參數(shù)來考慮這個(gè)特性。相同的特征(具有相同權(quán)重的隱藏單元)在輸入的不同位置上計(jì)算獲得。這意味著無論貓出現(xiàn)在圖像中的第 i i i列或 i + 1 i + 1 i+1列,我們都可以使用相同的貓?zhí)綔y器找到貓。參數(shù)共享顯著降低了CNN模型的參數(shù)數(shù)量,并顯著提高了網(wǎng)絡(luò)的大小而不需要相應(yīng)地增加訓(xùn)練數(shù)據(jù)。它仍然是將領(lǐng)域知識有效地整合到網(wǎng)絡(luò)架構(gòu)的最佳范例之一。文章來源:http://www.zghlxwxcb.cn/news/detail-470564.html
參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-470564.html
到了這里,關(guān)于深入理解深度學(xué)習(xí)——正則化(Regularization):參數(shù)綁定和參數(shù)共享的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!