国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——正則化(Regularization):參數(shù)綁定和參數(shù)共享

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——正則化(Regularization):參數(shù)綁定和參數(shù)共享。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄


目前為止,我們討論對參數(shù)添加約束或懲罰時(shí),一直是相對于固定的區(qū)域或點(diǎn)。例如, L 2 L^2 L2正則化(或權(quán)重衰減)對參數(shù)偏離零的固定值進(jìn)行懲罰。然而,有時(shí)我們可能需要其他的方式來表達(dá)我們對模型參數(shù)適當(dāng)值的先驗(yàn)知識。有時(shí)候,我們可能無法準(zhǔn)確地知道應(yīng)該使用什么樣的參數(shù),但我們根據(jù)相關(guān)領(lǐng)域和模型結(jié)構(gòu)方面的知識得知模型參數(shù)之間應(yīng)該存在一些相關(guān)性。我們經(jīng)常想要表達(dá)的一種常見依賴是某些參數(shù)應(yīng)當(dāng)彼此接近??紤]以下情形:我們有兩個(gè)模型執(zhí)行相同的分類任務(wù)(具有相同類別),但輸入分布稍有不同。形式地,我們有參數(shù)為 w ( A ) w^{(A)} w(A)的模型A和參數(shù)為 w ( B ) w^{(B)} w(B)的模型B。這兩種模型將輸入映射到兩個(gè)不同但相關(guān)的輸出: y ^ ( A ) = f ( w ( A ) , x ) \hat{y}^{(A)} = f(w^{(A)}, x) y^?(A)=f(w(A),x) y ^ ( B ) = f ( w ( B ) , x ) \hat{y}^{(B)} = f(w^{(B)}, x) y^?(B)=f(w(B),x)

我們可以想象,這些任務(wù)會足夠相似(或許具有相似的輸入和輸出分布),因此我們認(rèn)為模型參數(shù)應(yīng)彼此靠近: ? i , w i ( A ) \forall i, w^{(A)}_i ?i,wi(A)?應(yīng)該與 w i ( B ) w^{(B)}_i wi(B)?接近。我們可以通過正則化利用此信息。具體來說,我們可以使用以下形式的參數(shù)范數(shù)懲罰: Ω ( w ( A ) , w ( B ) ) = ∣ ∣ w ( A ) ? w ( B ) ∣ ∣ 2 2 \Omega(w^{(A)}, w^{(B)}) = ||w^{(A)} - w^{(B)}||^2_2 Ω(w(A),w(B))=∣∣w(A)?w(B)22?。在這里我們使用 L 2 L^2 L2懲罰,但也可以使用其他選擇。

這種方法由Lasserre提出,正則化一個(gè)模型(監(jiān)督模式下訓(xùn)練的分類器)的參數(shù),使其接近另一個(gè)無監(jiān)督模式下訓(xùn)練的模型(捕捉觀察到的輸入數(shù)據(jù)的分布)的參數(shù)。構(gòu)造的這種架構(gòu)使得分類模型中的許多參數(shù)能與無監(jiān)督模型中對應(yīng)的參數(shù)匹配。參數(shù)范數(shù)懲罰是正則化參數(shù)使其彼此接近的一種方式,而更流行的方法是使用約束:強(qiáng)迫某些參數(shù)相等。由于我們將各種模型或模型組件解釋為共享唯一的一組參數(shù),這種正則化方法通常被稱為參數(shù)共享(Parameter Sharing)。和正則化參數(shù)使其接近(通過范數(shù)懲罰)相比,參數(shù)共享的一個(gè)顯著優(yōu)點(diǎn)是,只有參數(shù)(唯一一個(gè)集合)的子集需要被存儲在內(nèi)存中。對于某些特定模型,如卷積神經(jīng)網(wǎng)絡(luò),這可能可以顯著減少模型所占用的內(nèi)存。

目前為止,最流行和廣泛使用的參數(shù)共享出現(xiàn)在應(yīng)用于計(jì)算機(jī)視覺的卷積神經(jīng)網(wǎng)絡(luò)(CNN)中。自然圖像有許多統(tǒng)計(jì)屬性是對轉(zhuǎn)換不變的。例如,貓的照片即使向右邊移了一個(gè)像素,仍保持貓的照片。CNN通過在圖像多個(gè)位置共享參數(shù)來考慮這個(gè)特性。相同的特征(具有相同權(quán)重的隱藏單元)在輸入的不同位置上計(jì)算獲得。這意味著無論貓出現(xiàn)在圖像中的第 i i i列或 i + 1 i + 1 i+1列,我們都可以使用相同的貓?zhí)綔y器找到貓。參數(shù)共享顯著降低了CNN模型的參數(shù)數(shù)量,并顯著提高了網(wǎng)絡(luò)的大小而不需要相應(yīng)地增加訓(xùn)練數(shù)據(jù)。它仍然是將領(lǐng)域知識有效地整合到網(wǎng)絡(luò)架構(gòu)的最佳范例之一。

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-470564.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——正則化(Regularization):參數(shù)綁定和參數(shù)共享的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深入理解深度學(xué)習(xí)——正則化(Regularization):作為約束的范數(shù)懲罰

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 考慮經(jīng)過參數(shù)范數(shù)正則化的代價(jià)函數(shù): J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顧《拉格朗日乘子法(二):不等式約束與KKT條件》我們可以構(gòu)

    2024年02月08日
    瀏覽(19)
  • 深度學(xué)習(xí)記錄--正則化(regularization)

    深度學(xué)習(xí)記錄--正則化(regularization)

    正則化(regularization)是一種實(shí)用的減少 方差 ( variance )的方法,也即 避免過度擬合 L2正則化 又被稱為 權(quán)重衰減(weight dacay) ?在成本函數(shù)中加上正則項(xiàng): 其中??? ?由于在w的更新過程中會遞減,即權(quán)重衰減 w遞減的過程,實(shí)際上是w趨近于0的過程 在這個(gè)過程中,部分單元的影響

    2024年01月19日
    瀏覽(48)
  • 七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    在這篇文章中將介紹7篇機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的論文或者圖書出版物,這些內(nèi)容都論文極大地影響了我對該領(lǐng)域的理解,如果你想深入了解機(jī)器學(xué)習(xí)的內(nèi)容,哪么推薦閱讀。 在自然語言處理和序列建模領(lǐng)域,Vaswani等人的一篇論文《Attention Is All You Need》徹底改變了這一領(lǐng)域。這

    2024年02月07日
    瀏覽(18)
  • 深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(Attention Mechanism):基礎(chǔ)知識 ·注意力機(jī)制(Attention Mechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(Attention Mechanism):注意力評分函數(shù)(Attention Scoring Function) ·注意力機(jī)制(Attention Mechanism):

    2024年02月10日
    瀏覽(33)
  • 深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

    深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識 ·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(AttentionMechanism):注意力評分函數(shù)(AttentionScoringFunction) ·注意力機(jī)制(AttentionMechanism):Bahda

    2024年02月08日
    瀏覽(26)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 預(yù)訓(xùn)練語言模型的一個(gè)趨勢是使用更大的模型配合更多的數(shù)據(jù),以達(dá)到“大力出奇跡”的效果。隨著模型規(guī)模的持續(xù)增大,單塊GPU已經(jīng)無法容納整個(gè)預(yù)訓(xùn)練語言模型。為了解決這個(gè)問題,谷歌提出了ALBERT,該模型與BERT幾乎沒有區(qū)別,

    2024年02月10日
    瀏覽(21)
  • 深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):位置編碼(Positional Encoding)

    深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):位置編碼(Positional Encoding)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識 ·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(AttentionMechanism):注意力評分函數(shù)(AttentionScoringFunction) ·注意力機(jī)制(AttentionMechanism):Bahda

    2024年02月08日
    瀏覽(30)
  • 深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識

    深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: · GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識 · GPT(Generative Pre-Trained Transformer):在不同任務(wù)中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3與Few-shot Learning

    2024年02月10日
    瀏覽(32)
  • 深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: · BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識 · BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu) · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    瀏覽(24)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 T5的全稱為Text to Text Transfer Transformer,是谷歌提出的預(yù)訓(xùn)練語言模型領(lǐng)域的通用模型,該模型將所有自然語言問題都轉(zhuǎn)化成文本到文本的形式,并用一個(gè)統(tǒng)一的模型解決。為了得到大一統(tǒng)的高質(zhì)量預(yù)訓(xùn)練語言模型,T5不可避免地走上了

    2024年02月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包