国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

這篇具有很好參考價值的文章主要介紹了【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

集成學(xué)習(xí)(理論)




一、何為集成學(xué)習(xí)


集成學(xué)習(xí)(Ensemble Learning),通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。一般結(jié)構(gòu)是:先產(chǎn)生一組“個體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來。結(jié)合策略主要有平均法、投票法和學(xué)習(xí)法等。因此,有時也稱集成學(xué)習(xí)為多學(xué)習(xí)器系統(tǒng)(multiclassifier system)、基于委員會的學(xué)習(xí)(committee-based learning)。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

集成學(xué)習(xí)主要用來提高模型(分類,預(yù)測,函數(shù)估計等)的性能,或用來降低模型選擇不當(dāng)?shù)目赡苄裕ㄈ缬糜跍p小方差的 Bagging 算法、降低偏差的 Boosting 算法或改進預(yù)測的 Stacking 算法等。

集成學(xué)習(xí)有許多集成模型,如自助聚合、隨機森林、提升法、 堆疊法以及許多其它模型。集成方法的思想正是通過上述模型來將不同個體學(xué)習(xí)器(也稱“基學(xué)習(xí)器”或“弱學(xué)習(xí)器”)的偏置或方差結(jié)合起來,從而創(chuàng)建一個更強的學(xué)習(xí)器(或集成模型),以獲得更好的性能。

下面介紹三種旨在組合弱學(xué)習(xí)器的元算法:

  • 自助聚合(Bagging):該方法通常考慮的是同質(zhì)弱學(xué)習(xí)器。其相互獨立地并行訓(xùn)練這些弱學(xué)習(xí)器,并按照某種確定性的平均過程將它們組合起來。
  • 提升法(Boosting):該方法通常考慮的也是同質(zhì)弱學(xué)習(xí)器。它以一種高度自適應(yīng)的方法順序地學(xué)習(xí)這些弱學(xué)習(xí)器(每個基礎(chǔ)模型都依賴于前面的模型,即串行訓(xùn)練),并按照某種確定性策略將它們組合起來(嘗試在每次分類中都將上一次分錯的數(shù)據(jù)權(quán)重提高一點再進行分類,來獲得一個強分類器)。
  • 堆疊法(stacking):該方法通??紤]的是異質(zhì)弱學(xué)習(xí)器。通過并行地訓(xùn)練這些弱學(xué)習(xí)器,然后再構(gòu)建一個元模型來組合不同弱模型的預(yù)測結(jié)果,并輸出最終預(yù)測結(jié)果。

粗略來看,Bagging 的重點在于獲得一個方差比其組成部分更小的集成模型,而 Boosting 和 Stacking 則注重生成偏置比其組成部分更低的強模型(方差也隨之減?。?。




二、集成學(xué)習(xí)最簡單的模型:投票策略


測試時,對待測樣本分別選取不同分類器進行,然后再匯總各分類器的結(jié)果進行匯總。匯總策略主要有平均法、投票法和學(xué)習(xí)法等。這里說一下投票法的兩種方式:

  1. 硬投票:在所有分類器預(yù)測的結(jié)果里,選擇出現(xiàn)頻次最高的(少數(shù)服從多數(shù))。采取這樣的投票策略時,下圖展示的集成學(xué)習(xí)模型則認(rèn)為待預(yù)測樣本應(yīng)被歸類為 1 類(3 > 1);
  2. 軟投票:將所有分類器預(yù)測的結(jié)果進行加權(quán)平均,然后再選擇可能性最大的(這就要求各分類器能得到概率值)。采取這樣的投票策略時,下圖展示的集成學(xué)習(xí)模型則認(rèn)為待預(yù)測樣本應(yīng)被歸類為 2 類。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)




三、弱學(xué)習(xí)器的組合算法:自助聚合(Bagging模型)


并行化方法的最大特點是可以單獨且同時訓(xùn)練不同學(xué)習(xí)器。最著名的方法是自助聚合(Bagging,全稱是 Bootstrap Aggregation),它的目標(biāo)是生成比單個模型更棒的集成模型。其實現(xiàn)思路是:并行訓(xùn)練多個弱學(xué)習(xí)器 f i ( x ) f_i(x) fi?(x) ,并取平均值作為最終的預(yù)測結(jié)果。即: f ( x ) = 1 M ∑ m = 1 M f m ( x ) f(x)=\frac1M\sum_{m=1}^Mf_m(x) f(x)=M1?m=1M?fm?(x)(從該式可以看出,最終的預(yù)測結(jié)果將更加平滑,方差會大幅降低)。

對于每個弱學(xué)習(xí)器,我們自然希望他它們能在某個方面取得較好的擬合效果(或者說,每個學(xué)習(xí)器都盡量對不一樣的數(shù)據(jù)進行擬合,否則大家都訓(xùn)練統(tǒng)一的數(shù)據(jù)將毫無意義)。這樣一來,在最終集成時就能匯總大家的長處,來共同組成一個在各方面都不錯的集成模型。于是,我們需要設(shè)計一種方法,使得一份數(shù)據(jù)集能夠被合理地劃分為不同訓(xùn)練集。自助法顯然是一個不錯的方案。

1、數(shù)據(jù)劃分方法:自助法(Bootstrap Method)


自助法:從給定訓(xùn)練集中有放回地進行均勻抽樣。

假設(shè)給定的數(shù)據(jù)集包含 n 個樣本,接下來對該數(shù)據(jù)集進行有放回地抽樣 k 次,這將產(chǎn)生含 k 個樣本的訓(xùn)練集。由于采樣時對每個樣本都有放回,則用這樣的方式得到的訓(xùn)練集很可能會包含一些重復(fù)樣本(即某些樣本在該訓(xùn)練集中出現(xiàn)多次)。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

在某些假設(shè)條件下,這些樣本具有非常好的統(tǒng)計特性:在一級近似中,它們可以被視為“直接從真實的底層(并且往往是未知的)數(shù)據(jù)分布中抽取出,并且彼此之間相互獨立”。因此,它們被認(rèn)為是真實數(shù)據(jù)分布的代表性和獨立樣本。為了使這種近似成立,需要最大限度地滿足以下兩點:

  1. 初始數(shù)據(jù)集的大小 n 應(yīng)該足夠大,以服從底層分布的大部分復(fù)雜性。這樣,從數(shù)據(jù)集中抽樣就是從真實分布中抽樣的良好近似(代表性)。
  2. 與自助樣本的大小 k 相比,數(shù)據(jù)集的規(guī)模 n 要足夠大,這樣樣本之間就不會有太大的相關(guān)性(獨立性)。

2、Bagging 策略


在對數(shù)據(jù)進行合理劃分后,就能對其分別構(gòu)建弱學(xué)習(xí)器,并在最后進行匯總。這個步驟可歸結(jié)如下:

  1. 首先對訓(xùn)練數(shù)據(jù)集進行多次采樣,保證每次得到的采樣數(shù)據(jù)都是不同的;
  2. 分別訓(xùn)練多個同質(zhì)的模型,例如樹模型;
  3. 預(yù)測時需得到所有模型的預(yù)測結(jié)果再進行集成。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)


3、Bagging 模型的典型用例:隨機森林(Random Forest)


Bagging 模型最典型的例子就是隨機森林(Random Forest)。
隨機是指數(shù)據(jù)采樣隨機,特征選擇隨機;森林則是指,一片森林由多棵決策樹構(gòu)成。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

隨機森林的優(yōu)勢在于:

  1. 能處理高緯度的數(shù)據(jù)(不用專門做特征選擇);
  2. 訓(xùn)練后得到的模型能反映出哪些特征比較重要;
  3. 并行算法,執(zhí)行速度較快;
  4. 具有可解釋性,且便于進行可視化展示(實戰(zhàn)部分會證明這一點)。



四、弱學(xué)習(xí)器的組合算法:提升法(Boosting模型)


順序化方法的主要思路是對模型進行迭代擬合,即每次構(gòu)建模型時都依賴于其在前一步所構(gòu)建的模型。對于采取順序化方法組合的弱模型而言,彼此之間不再獨立,而是存在一種后者依賴于前者的關(guān)系。在順序化方法中,提升法(Boosting) 是最著名的一種,由它生成的集成模型通常比組成該模型的弱學(xué)習(xí)器偏置更小。通俗地說就是,提升法認(rèn)為:每加入一個新的弱學(xué)習(xí)器就一定要帶來正收益,使得最終的集成模型更強。

Boosting 和 Bagging 的工作思路相同:構(gòu)建一系列模型,將它們聚合起來得到一個性能更好的強學(xué)習(xí)器。然而,與重點在于減小方差的 Bagging 不同,Boosting 著眼于以一種適應(yīng)性很強的方式順序擬合多個弱學(xué)習(xí)器:序列中每個模型在擬合的過程中,會更加重視那些 “序列之前的模型處理很糟糕的觀測數(shù)據(jù)” 。直觀地說,每個模型都把注意力集中在目前最難擬合的觀測數(shù)據(jù)上。這樣一來,在該過程的最后,就能獲得一個具有較低偏置的強學(xué)習(xí)器(顯然,方差也會降低)。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

和 Bagging 一樣,Boosting 也可以用于回歸和分類問題。由于其重點在于減小偏置,所以用 Boosting 基礎(chǔ)模型的通常是那些低方差高偏置的模型。例如,如果想要使用樹作為基礎(chǔ)模型,我們將主要選擇只有少許幾層的較淺決策樹。而選擇低方差高偏置模型作為 Boosting 弱學(xué)習(xí)器的另一個重要原因是:這些模型擬合的計算開銷較低(參數(shù)化時自由度較低)。實際上,由于擬合不同模型的計算無法并行處理(與 Bagging 最大的不同之處),因此順序擬合若干復(fù)雜模型會導(dǎo)致計算開銷變得非常高。

一旦選定了弱學(xué)習(xí)器,我們?nèi)孕枰x它們的擬合方式和聚合方式。這便引出兩個重要的 Boosting 算法:自適應(yīng)提升(Adaboost)和梯度提升(Gradient Boosting)。簡單說來,這兩種元算法在順序化的過程中創(chuàng)建和聚合弱學(xué)習(xí)器的方式存在差異:

  • 自適應(yīng)提升算法:會更新附加給每個訓(xùn)練數(shù)據(jù)集中觀測數(shù)據(jù)的權(quán)重;
  • 梯度提升算法:會更新每個訓(xùn)練數(shù)據(jù)集中觀測數(shù)據(jù)的值。

產(chǎn)生以上差異的主要原因是:兩種算法解決優(yōu)化問題(尋找最佳模型——弱學(xué)習(xí)器的加權(quán)和)的方式不同。


1、自適應(yīng)提升(Adaboost)

自適應(yīng)提升(Adaboost)算法的核心思想是:上一次分類錯誤的數(shù)據(jù),接下來需要重點關(guān)注(就像上學(xué)時,我們的錯題本)。因此,Adaboost 通過在訓(xùn)練樣本數(shù)據(jù)時,不斷修正對這些數(shù)據(jù)的權(quán)重,以此達到“對癥下藥”的目的,從而提高最終集成模型的分類效果。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

在自適應(yīng)提升算法中,我們將集成模型定義為 L 個弱學(xué)習(xí)器的加權(quán)和:

s L ( ? ) = ∑ l = 1 L c l × w l ( ? ) s_L(·)=\sum_{l=1}^Lc_l×w_l(·) sL?(?)=l=1L?cl?×wl?(?)

其中 c l c_l cl? 為權(quán)重系數(shù)(可理解為弱學(xué)習(xí)器的地位評估), w l w_l wl? 為弱學(xué)習(xí)器的擬合參數(shù)(可理解為弱學(xué)習(xí)器)。于是,求解集成模型就變?yōu)槭股鲜絽?shù)最佳的一個優(yōu)化問題(找到給出最佳整體加法模型的所有系數(shù)和弱學(xué)習(xí)器)。在一步之內(nèi)“尋找使上式最優(yōu)的參數(shù)”,這無疑是一個非常困難的優(yōu)化問題。但是,我們可以采取更易于處理的迭代優(yōu)化方式。也就是說,可以順序地將弱學(xué)習(xí)器逐個添加到當(dāng)前集成模型中,并在每次迭代時尋找可能的最佳組合(系數(shù)、弱學(xué)習(xí)器)。此時,可將某次迭代時的 s l ( ? ) s_l(·) sl?(?) 定義為:

s l ( ? ) = s l ? 1 ( ? ) + c l × w l ( ? ) s_l(·)=s_{l-1}(·)+c_l×w_l(·) sl?(?)=sl?1?(?)+cl?×wl?(?)

其中, c l c_l cl? w l w_l wl? 是被挑選出來使得 s l ( ? ) s_l(·) sl?(?) 最適合的參數(shù),因此這是對 s l ? 1 ( ? ) s_{l-1}(·) sl?1?(?) 的最佳可能改進。我們可以進一步將其表示為:

( c l , w l ( ? ) ) = a r g c , w ( ? ) m i n { E ( s l ? 1 ( ? ) + c l × w ( ? ) ) } = a r g c , w ( ? ) m i n ( ∑ l = 1 n e ( y l , s l ? 1 ( x n ) + c l × w ( x n ) ) ) \left(c_l,w_l\left(·\right)\right) = arg_{c,w(·)}min\{E\left(s_{l-1}(·)+c_l×w(·)\right)\}= arg_{c,w(·)}min\left(\sum_{l=1}^ne\left(y_l,s_{l-1}(x_n)+c_l×w(x_n)\right)\right) (cl?,wl?(?))=argc,w(?)?min{E(sl?1?(?)+cl?×w(?))}=argc,w(?)?min(l=1n?e(yl?,sl?1?(xn?)+cl?×w(xn?)))

其中, E ( ? ) E(·) E(?) 是給定模型的擬合誤差, e ( ? ) e(·) e(?) 是損失(誤差)函數(shù)。因此,我們并沒有在求和過程中對全部(L個)模型進行全局優(yōu)化,而是通過局部優(yōu)化來將近似最優(yōu)系數(shù)以及弱學(xué)習(xí)器逐個添加到強模型中。


特別的是,在考慮二分類問題時,可將 Adaboost 算法寫入以下過程:

  1. 更新數(shù)據(jù)集中觀測數(shù)據(jù)的權(quán)重,并以此訓(xùn)練新的弱學(xué)習(xí)器(該學(xué)習(xí)器將重點關(guān)注當(dāng)前集成模型誤分類的觀測數(shù)據(jù));
  2. 根據(jù)一個表示該弱模型性能的更新系數(shù),將弱學(xué)習(xí)器添加到加權(quán)和中(顯然,弱學(xué)習(xí)器的性能越好,其對強學(xué)習(xí)器的貢獻就越大,則對應(yīng)的更新系數(shù)也越大)。

基于此,假設(shè)面對具有 n 個觀測數(shù)據(jù)的數(shù)據(jù)集,則在給定一組弱模型的情況下用 Adaboost 算法求解時,其過程如下:

  1. 算法開始,置所有觀測數(shù)據(jù)相同權(quán)重 1 n \frac1n n1?
  2. 重復(fù)以下步驟 L 次(定義了 L 個弱學(xué)習(xí)器):
    ① 基于當(dāng)前觀測數(shù)據(jù)的權(quán)重擬合可能的最佳弱模型;
    ② 計算更新系數(shù)的值(更修系數(shù)是弱學(xué)習(xí)器的某種量化評估指標(biāo),表示其相對集成模型來說,該弱學(xué)習(xí)器的分量如何);
    ③ 添加新的弱學(xué)習(xí)器及其更新系數(shù)的乘積,并由該乘積來更新強學(xué)習(xí)器接下來要學(xué)習(xí)的觀測數(shù)據(jù)的權(quán)重,該權(quán)重表示了在下一輪迭代中會重點關(guān)注哪些觀測數(shù)據(jù)(在當(dāng)前集成模型中,預(yù)測錯誤的觀測數(shù)據(jù)其權(quán)重將增加,而預(yù)測正確的觀測數(shù)據(jù)其權(quán)重則減小)。

重復(fù)以上步驟,就能順序地構(gòu)建出 L 個模型,并將它們聚合成一個簡單的線性組合,最后再由表示每個學(xué)習(xí)器性能的系數(shù)加權(quán)。注意,初始 Adaboost 算法有一些變體,比如 LogitBoost(分類)或 L2Boost(回歸),它們的差異主要取決于損失函數(shù)的選擇。


2、梯度提升(Gradient Boosting)

梯度提升(Gradient Boosting)是一種常用于回歸和分類問題的集成學(xué)習(xí)算法,主要以弱預(yù)測模型(通常是決策樹)集合的形式產(chǎn)生預(yù)測模型。聚合算法匯聚不同弱學(xué)習(xí)器的結(jié)果,然后采取均值或投票方式產(chǎn)生最終結(jié)果,而梯度提升則是把所有學(xué)習(xí)器的結(jié)果累加起來得出最終結(jié)論。梯度提升的核心在于,每一個學(xué)習(xí)器學(xué)習(xí)的目標(biāo)是之前所有學(xué)習(xí)器結(jié)論之和的殘差。比如,小明的真實貸款額度為 1000,第一個學(xué)習(xí)器預(yù)測出是 950,差了 50,即殘差為 50;那么在第二個學(xué)習(xí)器里,就需要把小明的貸款額度設(shè)為 50 去學(xué)習(xí),如果第二個學(xué)習(xí)器在測試時真的能把小明的貸款額度預(yù)測為 50,則累加兩個學(xué)習(xí)器的結(jié)果就是小明的真實貸款額度;如果第二個學(xué)習(xí)器的預(yù)測結(jié)果是 45,則仍然存在 5 的殘差,那第三個學(xué)習(xí)器里小明的貸款額度就變成 5,繼續(xù)學(xué)習(xí)……這就是梯度提升的算法流程。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

提升算法的主要思想是每步產(chǎn)生一個弱學(xué)習(xí)器,并不斷把弱學(xué)習(xí)器加權(quán)累加到總模型當(dāng)中,其基本公式如下:

F L ( x ) = ∑ i = 1 L c i w i ( x ) F_L(x)=\sum_{i=1}^Lc_iw_i(x) FL?(x)=i=1L?ci?wi?(x)

其中,?? 為弱學(xué)習(xí)器的個數(shù), c i c_i ci? 是系數(shù), w ( ? ) w_(·) w(??) 是弱學(xué)習(xí)器, F L F_L FL? 是最終的集成模型。我們的目的是得到一個優(yōu)秀的集成模型,使損失函數(shù)盡可能小,即:

argmin F m ∑ i = 1 n e ( y i , F L ( x i ) ) = argmin c L ∑ i = 1 n e ( y i , F L ? 1 ( x i ) + c L w L ( x i ) ) \text{argmin}_{F_m}\sum_{i=1}^ne(y_i,F_L(x_i))=\text{argmin}_{c_L}\sum_{i=1}^ne(y_i,F_{L-1}(x_i)+c_Lw_L(x_i)) argminFm??i=1n?e(yi?,FL?(xi?))=argmincL??i=1n?e(yi?,FL?1?(xi?)+cL?wL?(xi?))

由于 F L ( x ) F_L(x) FL?(x) 是由多個弱學(xué)習(xí)器加權(quán)組成,所以不可能同時求解。為此,梯度提升使用了一種貪心算法。在剛開始時,模型 F L ( x ) F_L(x) FL?(x) 為一個常函數(shù),然后每次只求解一個基學(xué)習(xí)器及其系數(shù),從而一步一步地來提升 F L ( x ) F_L(x) FL?(x) 的性能。這一點和梯度下降法及其相似,Gradient Boosting 就是每次讓 w L ( x i ) w_L(x_i) wL?(xi?) 等于損失函數(shù)的負(fù)梯度,從而最快地最小化損失函數(shù)。所以, w L ( x i ) w_L(x_i) wL?(xi?) 可以寫成下式:

w L ( x i ) = γ ? L ( y i , F L ? 1 ( x i ) ) ? F L ? 1 ( x i ) w_L(x_i)=\gamma\frac{?L(y_i,F_{L-1}(x_i))}{?F_{L-1}(x_i)} wL?(xi?)=γ?FL?1?(xi?)?L(yi?,FL?1?(xi?))?

上式中 γ \gamma γ 為步長,包含了負(fù)梯度的負(fù)號。公式右邊除 γ \gamma γ 以外的部分通常稱為偽殘差(也可以稱為梯度),即: R i L = ? L ( y i , F L ? 1 ( x i ) ) ? F L ? 1 ( x i ) R_{iL}=\frac{?L(y_i,F_{L-1}(x_i))}{?F_{L-1}(x_i)} RiL?=?FL?1?(xi?)?L(yi?,FL?1?(xi?))?。根據(jù)該式,由于 F L ( x ) F_L(x) FL?(x) 的上一步模型已知,那對于每個訓(xùn)練樣本,我們總可以求出它的偽殘差 R i L R_{iL} RiL? 。這樣,只要假設(shè)一種弱學(xué)習(xí)器,我們就可以根據(jù)訓(xùn)練樣本的 x 和 y 值(用弱學(xué)習(xí)器進行擬合)來訓(xùn)練得到當(dāng)前的弱學(xué)習(xí)器 w L w_L wL? 。最后將訓(xùn)練完的弱學(xué)習(xí)器帶入 argmin F m ∑ i = 1 n e ( y i , F L ( x i ) ) \text{argmin}_{F_m}\sum_{i=1}^ne(y_i,F_L(x_i)) argminFm??i=1n?e(yi?,FL?(xi?)) 中,使得損失函數(shù)最小,即可求出對應(yīng)的 c L c_L cL? 。




五、弱學(xué)習(xí)器的組合算法:堆疊法(Stacking模型)

堆疊法 Stacking 與 Bagging 和 Boosting 主要存在兩方面的差異。首先,堆疊法通常考慮的是異質(zhì)弱學(xué)習(xí)器(不同的學(xué)習(xí)算法被組合在一起),而 Bagging 和 Boosting 主要考慮的是同質(zhì)弱學(xué)習(xí)器。其次,Stacking 堆疊法學(xué)習(xí)用元模型組合基礎(chǔ)模型,而 Bagging 和 Boosting 則根據(jù)確定性算法組合弱學(xué)習(xí)器。

【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)

因此,為了構(gòu)建 Stacking 模型,我們需要定義兩個東西:想要擬合的 L 個學(xué)習(xí)器(基礎(chǔ)模型)以及組合它們的元模型。例如,對于分類問題,我們可以選擇 KNN 分類器、Logistic 回歸和 SVM 作為弱學(xué)習(xí)器,并以神經(jīng)網(wǎng)絡(luò)作為元模型。此時,神經(jīng)網(wǎng)絡(luò)將會把三個弱學(xué)習(xí)器的輸出作為輸入,并返回基于該輸入的最終預(yù)測。若我們想要擬合由 L 個弱學(xué)習(xí)器組成的 Stacking 集成模型,需要遵循以下步驟:

  1. 將訓(xùn)練數(shù)據(jù)分為兩組;
  2. 選擇 L 個弱學(xué)習(xí)器,并用它們擬合第一組數(shù)據(jù)(完成對這 L 個學(xué)習(xí)器的構(gòu)建);
  3. 用 L 個學(xué)習(xí)器中的每個學(xué)習(xí)器對第二組數(shù)據(jù)觀測數(shù)據(jù)進行預(yù)測;
  4. 將 3 中得到的預(yù)測結(jié)果作為輸入,以構(gòu)建組合前面 L 個弱學(xué)習(xí)器的元模型。

在上面的步驟中,我們將數(shù)據(jù)集一分為二以分別訓(xùn)練,是因為訓(xùn)練基礎(chǔ)模型與訓(xùn)練元模型這兩個過程是不相關(guān)的。此時如果用整個數(shù)據(jù)集一次性構(gòu)建集成模型,則會使得想要擬合的 L 個學(xué)習(xí)器與組合它們的元模型存在相關(guān)性,這顯然是不合理的(會出現(xiàn)過擬合現(xiàn)象)。因此,必須將數(shù)據(jù)集一分為二,前后訓(xùn)練。

但是,將數(shù)據(jù)集分為兩部分的一個明顯缺點是:數(shù)據(jù)利用率太低,且存在“模型競爭”現(xiàn)象(用一部分?jǐn)?shù)據(jù)訓(xùn)練基礎(chǔ)模型,剩余數(shù)據(jù)訓(xùn)練元模型時,若前者的數(shù)據(jù)規(guī)模更大,則勢必導(dǎo)致后者的訓(xùn)練效果較差,反之亦然)。為了克服這一缺陷,可以使用“k-折交叉訓(xùn)練方法”(類似于 k-折交叉驗證的做法,不知道什么是 k-折交叉驗證,的請 點擊此處 花2分鐘自行學(xué)習(xí))。這樣,所有觀測數(shù)據(jù)均能用于訓(xùn)練基礎(chǔ)模型和元模型:對于任意觀測數(shù)據(jù),弱學(xué)習(xí)器的預(yù)測都是通過在 k-1折數(shù)據(jù)上訓(xùn)練后而得。換句話說,它會在 k-1折數(shù)據(jù)上進行訓(xùn)練,從而對剩下的一折數(shù)據(jù)進行預(yù)測。迭代地重復(fù)這個過程,就可以得到對任何一折觀測數(shù)據(jù)的預(yù)測結(jié)果。這樣一來,我們就可以為數(shù)據(jù)集中的每個觀測數(shù)據(jù)生成相關(guān)的預(yù)測,然后使用所有這些預(yù)測結(jié)果訓(xùn)練元模型。

注:由于深度學(xué)習(xí)模型一般需要較長的訓(xùn)練周期,因此,如果硬件設(shè)備不允許建議選取留出法,如果需要追求精度則可以使用交叉驗證方法。




六、實戰(zhàn)部分

本文主要介紹了集成學(xué)習(xí)的三種弱學(xué)習(xí)器組合元算法:自助聚合、提升法和堆疊法,重點講解了各算法的性能側(cè)重點和彼此的典型用例。這一部分內(nèi)容最好結(jié)合著代碼進行實驗,以探尋各算法的優(yōu)劣和實現(xiàn)細(xì)則。下面附上實戰(zhàn)鏈接:【機器學(xué)習(xí)】集成學(xué)習(xí)(實戰(zhàn))。文章來源地址http://www.zghlxwxcb.cn/news/detail-437054.html


END


到了這里,關(guān)于【機器學(xué)習(xí)】集成學(xué)習(xí)(理論)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【機器學(xué)習(xí)】決策樹(理論)

    【機器學(xué)習(xí)】決策樹(理論)

    決策樹(Decision Tree)是一種分類和回歸方法,是基于各種情況發(fā)生的所需條件構(gòu)成決策樹,以實現(xiàn)期望最大化的一種圖解法。由于這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。它的運行機制非常通俗易懂,因此被譽為機器學(xué)習(xí)中,最“友好”的算法。下面通過一個

    2024年02月04日
    瀏覽(27)
  • 【Python機器學(xué)習(xí)】深度學(xué)習(xí)——一些理論知識

    【Python機器學(xué)習(xí)】深度學(xué)習(xí)——一些理論知識

    ? ? ? ? 深度學(xué)習(xí)在很多機器學(xué)習(xí)應(yīng)用中都有巨大的潛力,但深度學(xué)習(xí)算法往往經(jīng)過精確調(diào)整,只適用于特定的使用場景。先學(xué)習(xí)一些簡單的方法,比如用于分類和回歸的多層感知機(MLP),它可以作為研究更復(fù)雜的深度學(xué)習(xí)方法的起點。MPL也被稱為(普通)前饋神經(jīng)網(wǎng)絡(luò),

    2024年01月16日
    瀏覽(20)
  • 圖機器學(xué)習(xí)【從理論到實戰(zhàn)】

    圖機器學(xué)習(xí)【從理論到實戰(zhàn)】

    傳統(tǒng)神經(jīng)網(wǎng)絡(luò) 以往:隨著機器學(xué)習(xí)、深度學(xué)習(xí)的發(fā)展,語音、圖像、自然語言處理逐漸取得了很大的突破,然而語音、圖像、文本都是很簡單的序列或者網(wǎng)格數(shù)據(jù),是很結(jié)構(gòu)化的數(shù)據(jù),深度學(xué)習(xí)很善于處理該種類型的數(shù)據(jù)。 圖神經(jīng)網(wǎng)絡(luò) 現(xiàn)實世界:并不是所有的事物都可以表

    2024年02月09日
    瀏覽(22)
  • 【概率論理論】協(xié)方差,協(xié)方差矩陣?yán)碚?機器學(xué)習(xí))

    ??在許多算法中需要求出兩個分量間相互關(guān)系的信息。協(xié)方差就是描述這種相互關(guān)聯(lián)程度的一個特征數(shù)。 ??設(shè) ( X , Y ) (X,Y) ( X , Y ) 是一個二維隨機變量,若 E [ ( X ? E ( X ) ) ( Y ? E ( Y ) ) ] E[(X-E(X))(Y-E(Y))] E [ ( X ? E ( X ) ) ( Y ? E ( Y ) ) ] 存在,則稱此數(shù)學(xué)期望為 X X X 與

    2024年02月14日
    瀏覽(21)
  • 【Python機器學(xué)習(xí)】理論知識:決策樹

    決策樹是廣泛用于分類和回歸任務(wù)的模型,本質(zhì)上是從一層層if/else問題中進行學(xué)習(xí),并得出結(jié)論。這些問題類似于“是不是”中可能問到的問題。 決策樹的每個結(jié)點代表一個問題或一個包含答案的終結(jié)點(葉結(jié)點)。樹的邊獎問題的答案與將問的下一個問題連接起來。 用機

    2024年02月01日
    瀏覽(22)
  • 機器學(xué)習(xí)理論知識部分——樸素貝葉斯

    機器學(xué)習(xí)以及matlab和數(shù)據(jù)分析 機器學(xué)習(xí)聚類算法——BIRCH算法、DBSCAN算法、OPTICS算法_ 機器學(xué)習(xí)——隨機森林算法、極端隨機樹和單顆決策樹分類器對手寫數(shù)字?jǐn)?shù)據(jù)進行對比分析_極端隨機森林算法 文章目錄 問題一、樸素貝葉斯是基于特征獨立性假設(shè)的概率模型嗎? 問題二、

    2024年02月11日
    瀏覽(46)
  • 【機器學(xué)習(xí)】 貝葉斯理論的變分推理

    【機器學(xué)習(xí)】 貝葉斯理論的變分推理

    許志永 ????????貝葉斯原理,站在概率角度上似乎容易解釋,但站在函數(shù)立場上就不那么容易了;然而,在高端數(shù)學(xué)模型中,必須要在函數(shù)和集合立場上有一套完整的概念,其迭代和運算才能有堅定的理論基礎(chǔ)。 ? ? ? ? ?貝葉斯定理看起來天真地簡單。但是,分母是在

    2024年02月13日
    瀏覽(21)
  • 機器學(xué)習(xí)-學(xué)習(xí)率:從理論到實戰(zhàn),探索學(xué)習(xí)率的調(diào)整策略

    機器學(xué)習(xí)-學(xué)習(xí)率:從理論到實戰(zhàn),探索學(xué)習(xí)率的調(diào)整策略

    本文全面深入地探討了機器學(xué)習(xí)和深度學(xué)習(xí)中的學(xué)習(xí)率概念,以及其在模型訓(xùn)練和優(yōu)化中的關(guān)鍵作用。文章從學(xué)習(xí)率的基礎(chǔ)理論出發(fā),詳細(xì)介紹了多種高級調(diào)整策略,并通過Python和PyTorch代碼示例提供了實戰(zhàn)經(jīng)驗。 關(guān)注TechLead,分享AI全維度知識。作者擁有10+年互聯(lián)網(wǎng)服務(wù)架構(gòu)

    2024年02月05日
    瀏覽(22)
  • 機器學(xué)習(xí)理論筆記(二):數(shù)據(jù)集劃分以及模型選擇

    機器學(xué)習(xí)理論筆記(二):數(shù)據(jù)集劃分以及模型選擇

    歡迎來到藍(lán)色是天的機器學(xué)習(xí)筆記專欄!在上一篇文章《機器學(xué)習(xí)理論筆記(一):初識機器學(xué)習(xí)》中,我們初步了解了機器學(xué)習(xí),并探討了其定義、分類以及基本術(shù)語。作為繼續(xù)學(xué)習(xí)機器學(xué)習(xí)的進一步之旅,今天我們將進一步討論機器學(xué)習(xí)中的一些重要概念和技巧。 在本文

    2024年02月11日
    瀏覽(21)
  • 機器學(xué)習(xí)理論基礎(chǔ)—支持向量機的推導(dǎo)(一)

    機器學(xué)習(xí)理論基礎(chǔ)—支持向量機的推導(dǎo)(一)

    SVM:從幾何角度,對于線性可分?jǐn)?shù)據(jù)集,支持向量機就是找距離正負(fù)樣本都最遠(yuǎn)的超平面,相比于感知機,其解是唯一的,且不偏不倚,泛化性能更好。 超平面 n維空間的超平面(wT X+ b= 0,其中w,x ∈ R) 超平面方程不唯— 法向量w和位移項b確定一個唯一超平面 法向量w垂直于

    2024年04月28日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包