国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

這篇具有很好參考價(jià)值的文章主要介紹了【人工智能】機(jī)器學(xué)習(xí)中的決策樹。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

特征選擇

特征選擇

樹的生成

樹的剪枝

特征如何選擇

計(jì)算信息增益

樣本集的基尼值

決策樹生成

三種算法對(duì)比

決策樹剪枝

預(yù)剪枝(pre-pruning)

后剪枝(post-pruning)

案例—紅酒分類

案例—帶噪正弦曲線擬合


前言

本次實(shí)驗(yàn)是由python語言為基礎(chǔ)學(xué)習(xí)網(wǎng)站分享給大家

點(diǎn)擊右邊鏈接進(jìn)行學(xué)習(xí)牛客網(wǎng)學(xué)習(xí)python跳轉(zhuǎn)鏈接

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?

特征選擇

決策樹學(xué)習(xí)通常包括三個(gè)步驟(過程)或稱三要素:特征選擇、樹的生成(構(gòu)造)、樹的剪枝。

特征選擇

選擇最優(yōu)的劃分特征與條件。父結(jié)點(diǎn)(根結(jié)點(diǎn)和中間結(jié)點(diǎn))把待分?jǐn)?shù)據(jù)集按照選定的特征和測試條件切分成若干數(shù)據(jù)子集分別進(jìn)入若干子結(jié)點(diǎn)。從根結(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)對(duì)應(yīng)一個(gè)判定測試序列,如何選擇每次測試采用的特征呢,優(yōu)先測試哪個(gè)特征呢?

樹的生成

按照特征選擇標(biāo)準(zhǔn),采用遞歸方式、按照一定策略生成決策樹。

樹的剪枝

決策樹容易發(fā)生過擬合,需要采用的一定的剪枝策略來防止過擬合。

特征如何選擇

一棵決策樹包括一個(gè)根結(jié)點(diǎn)、若干內(nèi)部結(jié)點(diǎn)、若干葉結(jié)點(diǎn);葉結(jié)點(diǎn)對(duì)應(yīng)于決策結(jié)果,其它每個(gè)結(jié)點(diǎn)則對(duì)應(yīng)于一個(gè)屬性測試;每個(gè)父結(jié)點(diǎn)所包含的樣本集根據(jù)屬性測試的結(jié)果,被劃分到子結(jié)點(diǎn)中;根結(jié)點(diǎn)包含樣本全集,從根結(jié)點(diǎn)到每個(gè)葉結(jié)點(diǎn)對(duì)應(yīng)一個(gè)判定測試序列。
決策樹學(xué)習(xí)的關(guān)鍵之一是如何選擇最優(yōu)劃分特征,對(duì)于連續(xù)型特征還要找到最優(yōu)切分點(diǎn)。隨著劃分過程不斷進(jìn)行,希望決策樹的分支結(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即結(jié)點(diǎn)的“純度”(purity)越來越高。
信息熵(information entropy)和基尼指數(shù)(Gini index)是度量樣本集合不純度(impurity)的常用指標(biāo)。

假設(shè)當(dāng)前樣本集合D中第k類樣本所占比例為? ( k=1,2,3,......,K ),則D 的信息熵定義為

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

上述定義中的概率由數(shù)據(jù)估計(jì)得到,故稱為樣本集的經(jīng)驗(yàn)熵。樣本的類別分布越均勻,熵越大,樣本集越混雜,純度越低,不純度越高;當(dāng)樣本屬于每個(gè)類別的比例相同時(shí),熵值最大,當(dāng)所有樣本都屬于同一類別時(shí),熵值為0。

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?使用特征A對(duì)于對(duì)樣本集D進(jìn)行劃分所獲得的信息增益定義為

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

計(jì)算信息增益

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

原始樣本集共8個(gè)樣本,標(biāo)簽“是”有3個(gè),標(biāo)簽“否”有5個(gè)

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?原始樣本集8個(gè)樣本,按照特征“擁有房產(chǎn)” ,可劃分成2個(gè)子集

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

列表如下:

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

使用房產(chǎn)特征劃分原始樣本集后所得信息增益=0.9544-0.6068= 0.3476

決策樹學(xué)習(xí)算法ID3(Iterative Dichotomizer 3)就是按信息增益最大準(zhǔn)則來選取劃分特征。
信息增益最大準(zhǔn)則傾向于選擇具有大量不同取值的特征,從而產(chǎn)生許多小而純的子集。例如,若把客戶ID作為劃分特征,切分后的條件信息熵為零,能獲得最大信息增益,但是這樣做毫無意義。

但信息增益比最大準(zhǔn)則對(duì)可取值數(shù)目較少的特征有所偏好。因此,C4.5算法先從候選劃分屬性中找出信息增益高于平均水平的特征,再從中選擇增益比最高的特征作為劃分特征。

樣本集的基尼值

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?取V個(gè)離散值的特征A對(duì)于數(shù)據(jù)集D的基尼指數(shù)

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

基尼指數(shù)越大,樣本的不確定性也就越大。決策樹學(xué)習(xí)算法CART(Classification And Regression Tree)根據(jù)基尼指數(shù)最小來選擇最優(yōu)劃分特征

決策樹生成

三種算法對(duì)比

ID3決策樹:使用信息增益作為特征選擇標(biāo)準(zhǔn)
C4.5決策樹在ID3決策樹基礎(chǔ)上有三點(diǎn)改進(jìn),其它部分相同。
(1)ID3容易偏向于優(yōu)先選取取值種類較多的特征。為此,C4.5先從候選劃分特征中找出信息增益高于平均水平的特征,再從中選擇信息增益比最高的特征作為劃分特征。
(2)ID3不能處理連續(xù)型特征。為此,C4.5對(duì)連續(xù)型特征的取值排序后按區(qū)間和閥值進(jìn)行離散化。
(3)ID3決策樹容易過擬合。決策樹分叉過細(xì)會(huì)導(dǎo)致最后生成的決策樹模型對(duì)訓(xùn)練集數(shù)據(jù)擬合特別好,但是對(duì)新數(shù)據(jù)的預(yù)測效果較差,即模型泛化能力不好。為此,C4.5引入了正則化系數(shù)進(jìn)行初步的剪枝來緩解過擬合問題。

CART(Classification And Regression Tree分類回歸樹)
(1)ID3和C4.5計(jì)算熵值時(shí)需要計(jì)算對(duì)數(shù),CART采用基尼系數(shù),簡化了計(jì)算。
(2)ID3和C4.5采用多叉樹進(jìn)行特征劃分,即特征有幾種類別取值就劃分幾棵子樹,并且該特征在后續(xù)算法執(zhí)行過程中被排除在候選特征之外,這種劃分方式過于粗糙,特征信息的利用率較低;C4.5對(duì)連續(xù)值采用區(qū)間離散化,或多或少會(huì)損失一部分信息。CART采用二叉樹對(duì)每個(gè)特征進(jìn)行劃分
????? 例如某離散特征取值{1,2,3},則分別對(duì){1}和{2,3},{2}和{1,3},{3}和{1,2}三種情況計(jì)算,從中選擇基尼系數(shù)最小的組合進(jìn)行二切分,生成兩個(gè)二叉子樹。

??????? 對(duì)于連續(xù)特征,對(duì)其n個(gè)取值排序后,依次取每兩個(gè)相鄰值的中間值作為劃分點(diǎn),比較這n-1次劃分對(duì)應(yīng)的基尼系數(shù),選最小基尼系數(shù)對(duì)應(yīng)的劃分點(diǎn)生成二叉子樹。因此,每次進(jìn)行特征選擇的最小單位是某個(gè)特征下的某個(gè)最優(yōu)二切分點(diǎn),使得CART可以對(duì)同一特征進(jìn)行多次利用。
(3)ID3和C4.5只能用于分類任務(wù)。CART則可用于分類和回歸。CART用于回歸預(yù)測時(shí),采用平方誤差最小的劃分為最優(yōu)劃分
??? 給定數(shù)據(jù)集D,m個(gè)樣本,每個(gè)樣本n個(gè)特征。對(duì)于每個(gè)特征,計(jì)算每種二叉劃分對(duì)應(yīng)的平方誤差,取最小者對(duì)應(yīng)的劃分點(diǎn);在所有特征上,選擇最小者,從而得到最佳劃分特征及其劃分點(diǎn)。

(4)CART預(yù)測輸出
??? 分類預(yù)測:每個(gè)葉子結(jié)點(diǎn)所含全部樣本中標(biāo)簽類別占多數(shù)者作為它對(duì)應(yīng)的標(biāo)簽類別預(yù)測輸出。
??? 回歸預(yù)測:每個(gè)葉子結(jié)點(diǎn)所含全部樣本對(duì)應(yīng)標(biāo)簽值的平均值或中位數(shù)作為它對(duì)應(yīng)的標(biāo)簽值預(yù)測輸出。

決策樹剪枝

如果不限制樹的規(guī)模,決策樹將會(huì)一直分裂下去,直到每個(gè)葉子結(jié)點(diǎn)只包含一個(gè)樣本為止。在理想情況下,這樣做能夠把訓(xùn)練集中的所有樣本完全分開,因?yàn)槊總€(gè)樣本各自占據(jù)一個(gè)葉子結(jié)點(diǎn)。這樣的決策樹出現(xiàn)完全過擬合,在測試集上的效果會(huì)很差。
剪枝策略對(duì)決策樹影響巨大,是優(yōu)化決策樹算法的核心。有兩種常見方法

預(yù)剪枝(pre-pruning)

在生成決策樹的過程中提前停止樹的增長。

預(yù)剪枝思想:在樹中結(jié)點(diǎn)進(jìn)行分裂之前,先計(jì)算當(dāng)前劃分是否能夠帶來模型泛化能力的提升,如果不能,則不再繼續(xù)生長。此時(shí)結(jié)點(diǎn)中可能包括不同類別的樣本,按照多數(shù)投票的原則判斷該結(jié)點(diǎn)所屬類別。停止決策樹生長的常用判斷條件有:樹達(dá)到一定深度;當(dāng)前結(jié)點(diǎn)的樣本數(shù)量小于某個(gè)閥值;計(jì)算每次分裂對(duì)測試集的準(zhǔn)確率提升,當(dāng)小于某個(gè)閥值時(shí),不再繼續(xù)擴(kuò)展。

后剪枝(post-pruning)

在已生成的過擬合決策樹上進(jìn)行剪枝,得到簡化版的剪枝決策樹。

后剪枝思想:生成一顆完全生長的決策樹后,從最底層向上計(jì)算是否剪枝。剪枝過程就是把子樹刪除,用一個(gè)葉結(jié)點(diǎn)替代,該結(jié)點(diǎn)的類別同樣按多數(shù)投票原則確定。若剪枝后在測試集上準(zhǔn)確率有所提升,則進(jìn)行剪枝。

案例—紅酒分類

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

調(diào)參沒有固定方法,一切都是看數(shù)據(jù)本身。
如果數(shù)據(jù)集非常巨大,你已經(jīng)預(yù)測到無論如何都是要剪枝的,那提前設(shè)定這些參數(shù)來控制樹的復(fù)雜性和大小會(huì)比較好。

案例—帶噪正弦曲線擬合

Sklearn回歸樹衡量最佳結(jié)點(diǎn)和分枝的指標(biāo)有
(1)criterion= “ mse ” ,使用均方誤差MSE,父節(jié)點(diǎn)和子節(jié)點(diǎn)之間的均方誤差的差額被用來作為劃分特征選擇的標(biāo)準(zhǔn),這種方法通過使用葉子節(jié)點(diǎn)的均值來最小化L2損失。(不填該參數(shù),則默認(rèn)mse)
(2)criterion= " friedman_mse " ,使用費(fèi)爾德曼均方誤差(針對(duì)潛在分枝中的問題改進(jìn)后的均方誤差)
(3)criterion= " mae "使用平均絕對(duì)誤差MAE,使用葉節(jié)點(diǎn)的中值來最小化L1損失。

【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

?【人工智能】機(jī)器學(xué)習(xí)中的決策樹

跟博主一起來學(xué)習(xí)吧點(diǎn)擊跳轉(zhuǎn)文章來源地址http://www.zghlxwxcb.cn/news/detail-444266.html

到了這里,關(guān)于【人工智能】機(jī)器學(xué)習(xí)中的決策樹的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包