深入理解深度學(xué)習(xí)——正則化（Regularization）：Bagging和其他集成方法

2年前作者：von Neumann分類：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——正則化（Regularization）：Bagging和其他集成方法。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄：《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章：
· 集成學(xué)習(xí)（Ensemble Learning）：基礎(chǔ)知識(shí)
· 集成學(xué)習(xí)（Ensemble Learning）：提升法Boosting與Adaboost算法
· 集成學(xué)習(xí)（Ensemble Learning）：袋裝法Bagging
· 正則化（Regularization）：Bagging和其他集成方法

Bagging（Bootstrap Aggregating）是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)(Breiman, 1994)。主要想法是分別訓(xùn)練幾個(gè)不同的模型，然后讓所有模型表決測(cè)試樣例的輸出。這是機(jī)器學(xué)習(xí)中常規(guī)策略的一個(gè)例子，被稱為模型平均（Model Averaging）。采用這種策略的技術(shù)被稱為集成方法。模型平均（Model Averaging）奏效的原因是不同的模型通常不會(huì)在測(cè)試集上產(chǎn)生完全相同的誤差。

假設(shè)我們有 $k$ 個(gè)回歸模型。假設(shè)每個(gè)模型在每個(gè)例子上的誤差是 $\epsilon_i$ ，這個(gè)誤差服從零均值方差為 $E[\epsilon_i^2]=v$ 且協(xié)方差為 $E[\epsilon_i\epsilon_j]=c$ 的多維正態(tài)分布。通過所有集成模型的平均預(yù)測(cè)所得誤差是 $\frac{1}{k}\sum_i\epsilon_i$ 。集成預(yù)測(cè)器平方誤差的期望是：
$E[(\frac{1}{k}\sum_i\epsilon_i)^2]=\frac{1}{k}v + \frac{k - 1}{k}c$

在誤差完全相關(guān)即 $c = v$ 的情況下，均方誤差減少到 $v$ ，所以模型平均沒有任何幫助。在錯(cuò)誤完全不相關(guān)即 $c = 0$ 的情況下，該集成平方誤差的期望僅為 $\frac{1}{k}v$ 。這意味著集成平方誤差的期望會(huì)隨著集成規(guī)模增大而線性減小。換言之，平均上集成至少與它的任何成員表現(xiàn)得一樣好，并且如果成員的誤差是獨(dú)立的，集成將顯著地比其成員表現(xiàn)得更好。不同的集成方法以不同的方式構(gòu)建集成模型。例如，集成的每個(gè)成員可以使用不同的算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。

具體來說，Bagging涉及構(gòu)造 $k$ 個(gè)不同的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集從原始數(shù)據(jù)集中重復(fù)采樣構(gòu)成，和原始數(shù)據(jù)集具有相同數(shù)量的樣例。這意味著，每個(gè)數(shù)據(jù)集以高概率缺少一些來自原始數(shù)據(jù)集的例子，還包含若干重復(fù)的例子（如果所得訓(xùn)練集與原始數(shù)據(jù)集大小相同，那所得數(shù)據(jù)集中大概有原始數(shù)據(jù)集 $\frac{2}{3}$ 的實(shí)例）。模型 $i$ 在數(shù)據(jù)集 $i$ 上訓(xùn)練。每個(gè)數(shù)據(jù)集所含樣本的差異導(dǎo)致了訓(xùn)練模型之間的差異。

神經(jīng)網(wǎng)絡(luò)能找到足夠多的不同的解，意味著他們可以從模型平均中受益（即使所有模型都在同一數(shù)據(jù)集上訓(xùn)練）。神經(jīng)網(wǎng)絡(luò)中隨機(jī)初始化的差異、小批量的隨機(jī)選擇、超參數(shù)的差異或不同輸出的非確定性實(shí)現(xiàn)往往足以使得集成中的不同成員具有部分獨(dú)立的誤差。

模型平均是一個(gè)減少泛化誤差的非常強(qiáng)大可靠的方法。在作為科學(xué)論文算法的基準(zhǔn)時(shí)，它通常是不鼓勵(lì)使用的，因?yàn)槿魏螜C(jī)器學(xué)習(xí)算法都可以從模型平均中大幅獲益（以增加計(jì)算和存儲(chǔ)為代價(jià)）。機(jī)器學(xué)習(xí)比賽中的取勝算法通常是使用超過幾十種模型平均的方法。最近一個(gè)
突出的例子是Netflix Grand Prize。不是所有構(gòu)建集成的技術(shù)都是為了讓集成模型比單一模型更加正則化。例如，一種被稱為Boosting的技術(shù)構(gòu)建比單個(gè)模型容量更高的集成模型。通過向集成逐步添加神經(jīng)網(wǎng)絡(luò)，Boosting已經(jīng)被應(yīng)用于構(gòu)建神經(jīng)網(wǎng)絡(luò)的集成。通過逐漸增加神經(jīng)網(wǎng)絡(luò)的隱藏單元，Boosting也可以將單個(gè)神經(jīng)網(wǎng)絡(luò)解釋為一個(gè)集成。

參考文獻(xiàn)：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-464683.html

到了這里，關(guān)于深入理解深度學(xué)習(xí)——正則化（Regularization）：Bagging和其他集成方法的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深入理解深度學(xué)習(xí)——正則化（Regularization）：作為約束的范數(shù)懲罰
分類目錄：《深入理解深度學(xué)習(xí)》總目錄考慮經(jīng)過參數(shù)范數(shù)正則化的代價(jià)函數(shù)： J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) tilde{J}(theta;X, y) = J(theta;X, y) + alphaOmega(theta) J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( θ ) 回顧《拉格朗日乘子法（二）：不等式約束與KKT條件》我們可以構(gòu)
2024年02月08日
瀏覽(21)
深度學(xué)習(xí)記錄--正則化(regularization)
正則化(regularization)是一種實(shí)用的減少方差 ( variance )的方法，也即避免過度擬合 L2正則化又被稱為權(quán)重衰減(weight dacay) ?在成本函數(shù)中加上正則項(xiàng)：其中??? ?由于在w的更新過程中會(huì)遞減，即權(quán)重衰減 w遞減的過程，實(shí)際上是w趨近于0的過程在這個(gè)過程中，部分單元的影響
2024年01月19日
瀏覽(48)
七篇深入理解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的讀物推薦
在這篇文章中將介紹7篇機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的論文或者圖書出版物，這些內(nèi)容都論文極大地影響了我對(duì)該領(lǐng)域的理解，如果你想深入了解機(jī)器學(xué)習(xí)的內(nèi)容，哪么推薦閱讀。在自然語言處理和序列建模領(lǐng)域，Vaswani等人的一篇論文《Attention Is All You Need》徹底改變了這一領(lǐng)域。這
2024年02月07日
瀏覽(18)
深入理解深度學(xué)習(xí)——Transformer：編碼器（Encoder）部分
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機(jī)制（AttentionMechanism）：基礎(chǔ)知識(shí) ·注意力機(jī)制（AttentionMechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制（AttentionMechanism）：注意力評(píng)分函數(shù)（AttentionScoringFunction） ·注意力機(jī)制（AttentionMechanism）：Bahda
2024年02月08日
瀏覽(27)
深入理解深度學(xué)習(xí)——Transformer：解碼器（Decoder）部分
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機(jī)制（Attention Mechanism）：基礎(chǔ)知識(shí) ·注意力機(jī)制（Attention Mechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制（Attention Mechanism）：注意力評(píng)分函數(shù)（Attention Scoring Function） ·注意力機(jī)制（Attention Mechanism）：
2024年02月10日
瀏覽(34)
深入理解深度學(xué)習(xí)——BERT派生模型：ALBERT（A Lite BERT）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄預(yù)訓(xùn)練語言模型的一個(gè)趨勢(shì)是使用更大的模型配合更多的數(shù)據(jù)，以達(dá)到“大力出奇跡”的效果。隨著模型規(guī)模的持續(xù)增大，單塊GPU已經(jīng)無法容納整個(gè)預(yù)訓(xùn)練語言模型。為了解決這個(gè)問題，谷歌提出了ALBERT，該模型與BERT幾乎沒有區(qū)別，
2024年02月10日
瀏覽(22)
深入理解深度學(xué)習(xí)——注意力機(jī)制（Attention Mechanism）：位置編碼（Positional Encoding）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： ·注意力機(jī)制（AttentionMechanism）：基礎(chǔ)知識(shí) ·注意力機(jī)制（AttentionMechanism）：注意力匯聚與Nadaraya-Watson核回歸 ·注意力機(jī)制（AttentionMechanism）：注意力評(píng)分函數(shù)（AttentionScoringFunction） ·注意力機(jī)制（AttentionMechanism）：Bahda
2024年02月08日
瀏覽(30)
深入理解深度學(xué)習(xí)——BERT（Bidirectional Encoder Representations from Transformers）：基礎(chǔ)知識(shí)
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： · BERT（Bidirectional Encoder Representations from Transformers）：基礎(chǔ)知識(shí) · BERT（Bidirectional Encoder Representations from Transformers）：BERT的結(jié)構(gòu) · BERT（Bidirectional Encoder Representations from Transformers）：MLM（Masked Language Model） · BERT（Bidirect
2024年02月11日
瀏覽(24)
深入理解深度學(xué)習(xí)——GPT（Generative Pre-Trained Transformer）：基礎(chǔ)知識(shí)
分類目錄：《深入理解深度學(xué)習(xí)》總目錄相關(guān)文章： · GPT（Generative Pre-Trained Transformer）：基礎(chǔ)知識(shí) · GPT（Generative Pre-Trained Transformer）：在不同任務(wù)中使用GPT · GPT（Generative Pre-Trained Transformer）：GPT-2與Zero-shot Learning · GPT（Generative Pre-Trained Transformer）：GPT-3與Few-shot Learning
2024年02月10日
瀏覽(33)
深入理解深度學(xué)習(xí)——BERT派生模型：T5（Text to Text Transfer Transformer）
分類目錄：《深入理解深度學(xué)習(xí)》總目錄 T5的全稱為Text to Text Transfer Transformer，是谷歌提出的預(yù)訓(xùn)練語言模型領(lǐng)域的通用模型，該模型將所有自然語言問題都轉(zhuǎn)化成文本到文本的形式，并用一個(gè)統(tǒng)一的模型解決。為了得到大一統(tǒng)的高質(zhì)量預(yù)訓(xùn)練語言模型，T5不可避免地走上了
2024年02月10日
瀏覽(22)