分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
· 集成學(xué)習(xí)(Ensemble Learning):基礎(chǔ)知識(shí)
· 集成學(xué)習(xí)(Ensemble Learning):提升法Boosting與Adaboost算法
· 集成學(xué)習(xí)(Ensemble Learning):袋裝法Bagging
· 正則化(Regularization):Bagging和其他集成方法
Bagging(Bootstrap Aggregating)是通過結(jié)合幾個(gè)模型降低泛化誤差的技術(shù)(Breiman, 1994)。主要想法是分別訓(xùn)練幾個(gè)不同的模型,然后讓所有模型表決測(cè)試樣例的輸出。這是機(jī)器學(xué)習(xí)中常規(guī)策略的一個(gè)例子,被稱為模型平均(Model Averaging)。采用這種策略的技術(shù)被稱為集成方法。模型平均(Model Averaging)奏效的原因是不同的模型通常不會(huì)在測(cè)試集上產(chǎn)生完全相同的誤差。
假設(shè)我們有
k
k
k個(gè)回歸模型。假設(shè)每個(gè)模型在每個(gè)例子上的誤差是
?
i
\epsilon_i
?i?,這個(gè)誤差服從零均值方差為
E
[
?
i
2
]
=
v
E[\epsilon_i^2]=v
E[?i2?]=v且協(xié)方差為
E
[
?
i
?
j
]
=
c
E[\epsilon_i\epsilon_j]=c
E[?i??j?]=c的多維正態(tài)分布。通過所有集成模型的平均預(yù)測(cè)所得誤差是
1
k
∑
i
?
i
\frac{1}{k}\sum_i\epsilon_i
k1?∑i??i?。集成預(yù)測(cè)器平方誤差的期望是:
E
[
(
1
k
∑
i
?
i
)
2
]
=
1
k
v
+
k
?
1
k
c
E[(\frac{1}{k}\sum_i\epsilon_i)^2]=\frac{1}{k}v + \frac{k - 1}{k}c
E[(k1?i∑??i?)2]=k1?v+kk?1?c
在誤差完全相關(guān)即 c = v c = v c=v的情況下,均方誤差減少到 v v v,所以模型平均沒有任何幫助。在錯(cuò)誤完全不相關(guān)即 c = 0 c = 0 c=0的情況下,該集成平方誤差的期望僅為 1 k v \frac{1}{k}v k1?v。這意味著集成平方誤差的期望會(huì)隨著集成規(guī)模增大而線性減小。換言之,平均上集成至少與它的任何成員表現(xiàn)得一樣好,并且如果成員的誤差是獨(dú)立的,集成將顯著地比其成員表現(xiàn)得更好。不同的集成方法以不同的方式構(gòu)建集成模型。例如,集成的每個(gè)成員可以使用不同的算法和目標(biāo)函數(shù)訓(xùn)練成完全不同的模型。Bagging是一種允許重復(fù)多次使用同一種模型、訓(xùn)練算法和目標(biāo)函數(shù)的方法。
具體來說,Bagging涉及構(gòu)造 k k k個(gè)不同的數(shù)據(jù)集。每個(gè)數(shù)據(jù)集從原始數(shù)據(jù)集中重復(fù)采樣構(gòu)成,和原始數(shù)據(jù)集具有相同數(shù)量的樣例。這意味著,每個(gè)數(shù)據(jù)集以高概率缺少一些來自原始數(shù)據(jù)集的例子,還包含若干重復(fù)的例子(如果所得訓(xùn)練集與原始數(shù)據(jù)集大小相同,那所得數(shù)據(jù)集中大概有原始數(shù)據(jù)集 2 3 \frac{2}{3} 32?的實(shí)例)。模型 i i i在數(shù)據(jù)集 i i i上訓(xùn)練。每個(gè)數(shù)據(jù)集所含樣本的差異導(dǎo)致了訓(xùn)練模型之間的差異。
神經(jīng)網(wǎng)絡(luò)能找到足夠多的不同的解,意味著他們可以從模型平均中受益(即使所有模型都在同一數(shù)據(jù)集上訓(xùn)練)。神經(jīng)網(wǎng)絡(luò)中隨機(jī)初始化的差異、小批量的隨機(jī)選擇、超參數(shù)的差異或不同輸出的非確定性實(shí)現(xiàn)往往足以使得集成中的不同成員具有部分獨(dú)立的誤差。
模型平均是一個(gè)減少泛化誤差的非常強(qiáng)大可靠的方法。在作為科學(xué)論文算法的基準(zhǔn)時(shí),它通常是不鼓勵(lì)使用的,因?yàn)槿魏螜C(jī)器學(xué)習(xí)算法都可以從模型平均中大幅獲益(以增加計(jì)算和存儲(chǔ)為代價(jià))。機(jī)器學(xué)習(xí)比賽中的取勝算法通常是使用超過幾十種模型平均的方法。最近一個(gè)
突出的例子是Netflix Grand Prize。不是所有構(gòu)建集成的技術(shù)都是為了讓集成模型比單一模型更加正則化。例如,一種被稱為Boosting的技術(shù)構(gòu)建比單個(gè)模型容量更高的集成模型。通過向集成逐步添加神經(jīng)網(wǎng)絡(luò),Boosting已經(jīng)被應(yīng)用于構(gòu)建神經(jīng)網(wǎng)絡(luò)的集成。通過逐漸增加神經(jīng)網(wǎng)絡(luò)的隱藏單元,Boosting也可以將單個(gè)神經(jīng)網(wǎng)絡(luò)解釋為一個(gè)集成。文章來源:http://www.zghlxwxcb.cn/news/detail-464683.html
參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-464683.html
到了這里,關(guān)于深入理解深度學(xué)習(xí)——正則化(Regularization):Bagging和其他集成方法的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!