国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——正則化(Regularization):Bagging和其他集成方法

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——正則化(Regularization):Bagging和其他集成方法。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
· 集成學(xué)習(xí)(Ensemble Learning):基礎(chǔ)知識(shí)
· 集成學(xué)習(xí)(Ensemble Learning):提升法Boosting與Adaboost算法
· 集成學(xué)習(xí)(Ensemble Learning):袋裝法Bagging
· 正則化(Regularization):Bagging和其他集成方法


Bagging(Bootstrap Aggregating)是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)(Breiman, 1994)。主要想法是分別訓(xùn)練幾個(gè)不同的模型,然后讓所有模型表決測(cè)試樣例的輸出。這是機(jī)器學(xué)習(xí)中常規(guī)策略的一個(gè)例子,被稱為模型平均(Model Averaging)。采用這種策略的技術(shù)被稱為集成方法。模型平均(Model Averaging)奏效的原因是不同的模型通常不會(huì)在測(cè)試集上產(chǎn)生完全相同的誤差。

假設(shè)我們有 k k k個(gè)回歸模型。假設(shè)每個(gè)模型在每個(gè)例子上的誤差是 ? i \epsilon_i ?i?,這個(gè)誤差服從零均值方差為 E [ ? i 2 ] = v E[\epsilon_i^2]=v E[?i2?]=v且協(xié)方差為 E [ ? i ? j ] = c E[\epsilon_i\epsilon_j]=c E[?i??j?]=c的多維正態(tài)分布。通過所有集成模型的平均預(yù)測(cè)所得誤差是 1 k ∑ i ? i \frac{1}{k}\sum_i\epsilon_i k1?i??i?。集成預(yù)測(cè)器平方誤差的期望是:
E [ ( 1 k ∑ i ? i ) 2 ] = 1 k v + k ? 1 k c E[(\frac{1}{k}\sum_i\epsilon_i)^2]=\frac{1}{k}v + \frac{k - 1}{k}c E[(k1?i??i?)2]=k1?v+kk?1?c

在誤差完全相關(guān)即 c = v c = v c=v的情況下,均方誤差減少到 v v v,所以模型平均沒有任何幫助。在錯(cuò)誤完全不相關(guān)即 c = 0 c = 0 c=0的情況下,該集成平方誤差的期望僅為 1 k v \frac{1}{k}v k1?v。這意味著集成平方誤差的期望會(huì)隨著集成規(guī)模增大而線性減小。換言之,平均上集成至少與它的任何成員表現(xiàn)得一樣好,并且如果成員的誤差是獨(dú)立的,集成將顯著地比其成員表現(xiàn)得更好。不同的集成方法以不同的方式構(gòu)建集成模型。例如,集成的每個(gè)成員可以使用不同的算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。

具體來說,Bagging涉及構(gòu)造 k k k個(gè)不同的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集從原始數(shù)據(jù)集中重復(fù)采樣構(gòu)成,和原始數(shù)據(jù)集具有相同數(shù)量的樣例。這意味著,每個(gè)數(shù)據(jù)集以高概率缺少一些來自原始數(shù)據(jù)集的例子,還包含若干重復(fù)的例子(如果所得訓(xùn)練集與原始數(shù)據(jù)集大小相同,那所得數(shù)據(jù)集中大概有原始數(shù)據(jù)集 2 3 \frac{2}{3} 32?的實(shí)例)。模型 i i i在數(shù)據(jù)集 i i i上訓(xùn)練。每個(gè)數(shù)據(jù)集所含樣本的差異導(dǎo)致了訓(xùn)練模型之間的差異。

神經(jīng)網(wǎng)絡(luò)能找到足夠多的不同的解,意味著他們可以從模型平均中受益(即使所有模型都在同一數(shù)據(jù)集上訓(xùn)練)。神經(jīng)網(wǎng)絡(luò)中隨機(jī)初始化的差異、小批量的隨機(jī)選擇、超參數(shù)的差異或不同輸出的非確定性實(shí)現(xiàn)往往足以使得集成中的不同成員具有部分獨(dú)立的誤差。

模型平均是一個(gè)減少泛化誤差的非常強(qiáng)大可靠的方法。在作為科學(xué)論文算法的基準(zhǔn)時(shí),它通常是不鼓勵(lì)使用的,因?yàn)槿魏螜C(jī)器學(xué)習(xí)算法都可以從模型平均中大幅獲益(以增加計(jì)算和存儲(chǔ)為代價(jià))。機(jī)器學(xué)習(xí)比賽中的取勝算法通常是使用超過幾十種模型平均的方法。最近一個(gè)
突出的例子是Netflix Grand Prize。不是所有構(gòu)建集成的技術(shù)都是為了讓集成模型比單一模型更加正則化。例如,一種被稱為Boosting的技術(shù)構(gòu)建比單個(gè)模型容量更高的集成模型。通過向集成逐步添加神經(jīng)網(wǎng)絡(luò),Boosting已經(jīng)被應(yīng)用于構(gòu)建神經(jīng)網(wǎng)絡(luò)的集成。通過逐漸增加神經(jīng)網(wǎng)絡(luò)的隱藏單元,Boosting也可以將單個(gè)神經(jīng)網(wǎng)絡(luò)解釋為一個(gè)集成。

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-464683.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——正則化(Regularization):Bagging和其他集成方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深入理解深度學(xué)習(xí)——正則化(Regularization):作為約束的范數(shù)懲罰

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 考慮經(jīng)過參數(shù)范數(shù)正則化的代價(jià)函數(shù): J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顧《拉格朗日乘子法(二):不等式約束與KKT條件》我們可以構(gòu)

    2024年02月08日
    瀏覽(21)
  • 深度學(xué)習(xí)記錄--正則化(regularization)

    深度學(xué)習(xí)記錄--正則化(regularization)

    正則化(regularization)是一種實(shí)用的減少 方差 ( variance )的方法,也即 避免過度擬合 L2正則化 又被稱為 權(quán)重衰減(weight dacay) ?在成本函數(shù)中加上正則項(xiàng): 其中??? ?由于在w的更新過程中會(huì)遞減,即權(quán)重衰減 w遞減的過程,實(shí)際上是w趨近于0的過程 在這個(gè)過程中,部分單元的影響

    2024年01月19日
    瀏覽(48)
  • 七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦

    在這篇文章中將介紹7篇機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的論文或者圖書出版物,這些內(nèi)容都論文極大地影響了我對(duì)該領(lǐng)域的理解,如果你想深入了解機(jī)器學(xué)習(xí)的內(nèi)容,哪么推薦閱讀。 在自然語言處理和序列建模領(lǐng)域,Vaswani等人的一篇論文《Attention Is All You Need》徹底改變了這一領(lǐng)域。這

    2024年02月07日
    瀏覽(18)
  • 深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

    深入理解深度學(xué)習(xí)——Transformer:編碼器(Encoder)部分

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識(shí) ·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(AttentionMechanism):注意力評(píng)分函數(shù)(AttentionScoringFunction) ·注意力機(jī)制(AttentionMechanism):Bahda

    2024年02月08日
    瀏覽(27)
  • 深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    深入理解深度學(xué)習(xí)——Transformer:解碼器(Decoder)部分

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(Attention Mechanism):基礎(chǔ)知識(shí) ·注意力機(jī)制(Attention Mechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(Attention Mechanism):注意力評(píng)分函數(shù)(Attention Scoring Function) ·注意力機(jī)制(Attention Mechanism):

    2024年02月10日
    瀏覽(34)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    深入理解深度學(xué)習(xí)——BERT派生模型:ALBERT(A Lite BERT)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 預(yù)訓(xùn)練語言模型的一個(gè)趨勢(shì)是使用更大的模型配合更多的數(shù)據(jù),以達(dá)到“大力出奇跡”的效果。隨著模型規(guī)模的持續(xù)增大,單塊GPU已經(jīng)無法容納整個(gè)預(yù)訓(xùn)練語言模型。為了解決這個(gè)問題,谷歌提出了ALBERT,該模型與BERT幾乎沒有區(qū)別,

    2024年02月10日
    瀏覽(22)
  • 深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):位置編碼(Positional Encoding)

    深入理解深度學(xué)習(xí)——注意力機(jī)制(Attention Mechanism):位置編碼(Positional Encoding)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: ·注意力機(jī)制(AttentionMechanism):基礎(chǔ)知識(shí) ·注意力機(jī)制(AttentionMechanism):注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制(AttentionMechanism):注意力評(píng)分函數(shù)(AttentionScoringFunction) ·注意力機(jī)制(AttentionMechanism):Bahda

    2024年02月08日
    瀏覽(30)
  • 深入理解深度學(xué)習(xí)——BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識(shí)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: · BERT(Bidirectional Encoder Representations from Transformers):基礎(chǔ)知識(shí) · BERT(Bidirectional Encoder Representations from Transformers):BERT的結(jié)構(gòu) · BERT(Bidirectional Encoder Representations from Transformers):MLM(Masked Language Model) · BERT(Bidirect

    2024年02月11日
    瀏覽(24)
  • 深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識(shí)

    深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識(shí)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 相關(guān)文章: · GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識(shí) · GPT(Generative Pre-Trained Transformer):在不同任務(wù)中使用GPT · GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning · GPT(Generative Pre-Trained Transformer):GPT-3與Few-shot Learning

    2024年02月10日
    瀏覽(33)
  • 深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    深入理解深度學(xué)習(xí)——BERT派生模型:T5(Text to Text Transfer Transformer)

    分類目錄:《深入理解深度學(xué)習(xí)》總目錄 T5的全稱為Text to Text Transfer Transformer,是谷歌提出的預(yù)訓(xùn)練語言模型領(lǐng)域的通用模型,該模型將所有自然語言問題都轉(zhuǎn)化成文本到文本的形式,并用一個(gè)統(tǒng)一的模型解決。為了得到大一統(tǒng)的高質(zhì)量預(yù)訓(xùn)練語言模型,T5不可避免地走上了

    2024年02月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包