国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法

這篇具有很好參考價(jià)值的文章主要介紹了決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法

決策樹是一種流行而強(qiáng)大的機(jī)器學(xué)習(xí)算法,它從數(shù)據(jù)中學(xué)習(xí)并模擬決策過程,以便對(duì)新的未知數(shù)據(jù)做出預(yù)測(cè)。由于其直觀性和易理解性,決策樹成為了分類和回歸任務(wù)中的首選算法之一。在本文中,我們將深入探討決策樹的工作原理、如何構(gòu)建決策樹、它們的優(yōu)缺點(diǎn),以及在現(xiàn)實(shí)世界中的應(yīng)用。

樹模型

決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)

所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn),既可以做分類也可以做回歸

樹的組成

根節(jié)點(diǎn):第一個(gè)選擇點(diǎn)

非葉子節(jié)點(diǎn)與分支:中間過程

葉子節(jié)點(diǎn):最終的決策過程

例子:一個(gè)家庭里面找出玩游戲的人(通過年齡和性別兩個(gè)特征)

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

如何切分特征(選擇節(jié)點(diǎn))

問題:根節(jié)點(diǎn)的特征該用哪個(gè)特征?如何切分?

假設(shè):我們目標(biāo)應(yīng)該是根節(jié)點(diǎn)就像一個(gè)老大一樣能夠更好的切分?jǐn)?shù)據(jù)(分類的效果更好),根節(jié)點(diǎn)下面的節(jié)點(diǎn)自然就是二當(dāng)家。

目標(biāo):通過一種衡量指標(biāo),來計(jì)算通過不同特征進(jìn)行分支選擇后的分類情況,找出最好的那個(gè)當(dāng)成根節(jié)點(diǎn),以此類推。

衡量指標(biāo)——

熵:表示隨機(jī)變量不確定性的度量(說白了就是物體內(nèi)部的混亂程度,(概率越大)熵的值越小,物體的混亂程度越低,(概率越?。╈刂翟酱?,物體的混亂程度越高)

公式:

其中:

  • 是數(shù)據(jù)集 的熵。
  • 是類別的數(shù)量。
  • 是選擇第個(gè)類別的概率。

為了計(jì)算一個(gè)數(shù)據(jù)集的熵,你需要遵循以下步驟:

  1. 對(duì)于數(shù)據(jù)集 ,確定所有不同的類別。
  2. 計(jì)算屬于每個(gè)類別的元素的比例,即每個(gè)類別的概率。
  3. 對(duì)每個(gè)類別,計(jì)算。
  4. 將第3步中計(jì)算的所有值相加,并取其相反數(shù),得到熵。

例如,假設(shè)一個(gè)數(shù)據(jù)集有兩個(gè)類別(正類和負(fù)類),每個(gè)類別的實(shí)例數(shù)分別是 9 和 5。首先,我們計(jì)算每個(gè)類別的概率:正類的概率,負(fù)類的概率。然后,應(yīng)用熵公式計(jì)算:

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

這個(gè)值反映了數(shù)據(jù)集的不確定性程度。在構(gòu)建決策樹時(shí),我們希望通過選擇合適的特征來減少熵,也就是說,我們希望通過分割數(shù)據(jù)集來得到更低熵的子集,這樣可以使得決策樹在每個(gè)節(jié)點(diǎn)上做出更清晰的決策。

信息增益是決策樹算法中用于選擇數(shù)據(jù)集的最佳分割特征的一種度量。它是基于熵的一個(gè)概念,用來確定一個(gè)特征帶來的熵減少(即信息增加)的數(shù)量。信息增益越高,意味著使用該特征進(jìn)行分割所得到的子集的純度提高得越多。

信息增益 (IG) 的公式是基于父節(jié)點(diǎn)和其子節(jié)點(diǎn)的熵的差值計(jì)算的:

[ IG(S, A) = H(S) - \sum_{t \in T} \frac{|S_t|}{|S|} H(S_t) ]

其中:

  • ( IG(S, A) ) 是數(shù)據(jù)集 ( S ) 關(guān)于特征 ( A ) 的信息增益。
  • ( H(S) ) 是數(shù)據(jù)集 ( S ) 的原始熵。
  • ( T ) 是根據(jù)特征 ( A ) 的所有可能值將數(shù)據(jù)集 ( S ) 分割成的子集的集合。
  • ( S_t ) 是由于特征 ( A ) 的值為 ( t ) 而形成的子集。
  • ( |S_t| ) 是子集 ( S_t ) 的大小。
  • ( |S| ) 是整個(gè)數(shù)據(jù)集 ( S ) 的大小。
  • ( H(S_t) ) 是子集 ( S_t ) 的熵。

信息增益

在構(gòu)建決策樹時(shí),我們通常對(duì)每個(gè)特征計(jì)算信息增益,選擇信息增益最大的特征作為節(jié)點(diǎn)的分割特征。通過這個(gè)過程,我們希望每次分割都能最大化信息的純度提升,這樣構(gòu)建出來的樹能更好地分類數(shù)據(jù)。

讓我們通過一個(gè)簡(jiǎn)單的例子來說明信息增益的計(jì)算:

假設(shè)我們有一個(gè)數(shù)據(jù)集,它有兩個(gè)類別,類別 A 和類別 B。數(shù)據(jù)集的總熵已經(jīng)計(jì)算為 0.940?,F(xiàn)在我們考慮一個(gè)特征,它可以將數(shù)據(jù)集分割成兩個(gè)子集 和。我們計(jì)算這兩個(gè)子集的熵 和,然后根據(jù)它們?cè)诟笖?shù)據(jù)集中的比例加權(quán)求和,得出分割后的總熵。如果 是 0.0(因?yàn)橹兴袑?shí)例都屬于同一個(gè)類別),是 0.918,而且是 5, 是 9,那么分割后的總熵是:

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

因此,特征 的信息增益是:

根據(jù)這個(gè)計(jì)算結(jié)果,我們知道使用特征進(jìn)行分割能夠減少熵,增加信息的純度,具體增加的信息量為 0.351。通過比較不同特征的信息增益,我們可以選擇最好的分割點(diǎn)來構(gòu)建決策樹的下一個(gè)節(jié)點(diǎn)。

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹構(gòu)造實(shí)例:

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法,機(jī)器學(xué)習(xí),算法,決策樹

決策樹算法:

ID3:信息增益(問題如果新增ID列,用ID列做信息增益,會(huì)很大,但是沒意義)

C4.5:信息增益率(解決ID3問題,考慮自身熵)

  • 是特征A的信息增益。
  • 是分割信息,度量的是使用特征 來分割數(shù)據(jù)集時(shí)的熵。

CART:使用GINI系數(shù)來當(dāng)作衡量標(biāo)準(zhǔn)

  • 是數(shù)據(jù)集 的基尼系數(shù)。
  • 是數(shù)據(jù)集中不同類別的個(gè)數(shù)。
  • 是數(shù)據(jù)集中第個(gè)類別的相對(duì)頻率(概率)。

決策樹剪枝策略:

為什么要剪枝:決策樹過擬合風(fēng)險(xiǎn)很大,理論上可以完全分的開數(shù)據(jù)(想象一下,如果樹足夠龐大,每個(gè)節(jié)點(diǎn)不就一個(gè)數(shù)據(jù)了嗎)

剪枝策略:預(yù)剪枝、后剪枝

預(yù)剪枝:邊建立決策樹進(jìn)行剪枝的操作(更實(shí)用)

后剪枝:當(dāng)建立完決策樹后來進(jìn)行剪枝的操作

預(yù)剪枝方法:

限制深度、葉子節(jié)點(diǎn)個(gè)數(shù)葉子節(jié)點(diǎn)樣本數(shù),信息增益量等

后剪枝方法:

通過一定的hen文章來源地址http://www.zghlxwxcb.cn/news/detail-800213.html

到了這里,關(guān)于決策樹:理解機(jī)器學(xué)習(xí)中的關(guān)鍵算法的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 機(jī)器學(xué)習(xí) | 決策樹算法

    機(jī)器學(xué)習(xí) | 決策樹算法

    1、樹模型 ????????決策樹:從根節(jié)點(diǎn)開始一步步走到葉子節(jié)點(diǎn)(決策)。所有的數(shù)據(jù)最終都會(huì)落到葉子節(jié)點(diǎn), 既可以做分類也可以做回歸。 ????????在分類問題中,表示基于特征對(duì)實(shí)例進(jìn)行分類的過程,可以認(rèn)為是if-then的集合,也可以認(rèn)為是定義在特征空間與類空間上

    2024年02月07日
    瀏覽(15)
  • 機(jī)器學(xué)習(xí)算法 決策樹

    機(jī)器學(xué)習(xí)算法 決策樹

    決策樹(Decision Tree)是一種非參數(shù)的有監(jiān)督學(xué)習(xí)方法,它能夠從一系列有特征和標(biāo)簽的數(shù)據(jù)中總結(jié)出決策規(guī)則,并用樹狀圖的結(jié)構(gòu)來呈現(xiàn)這些規(guī)則,以解決分類和回歸問題。決策樹算法容易理解,適用各種數(shù)據(jù)。 決策樹算法的本質(zhì)是一種圖結(jié)構(gòu),我們只需要問一系列問題就

    2023年04月23日
    瀏覽(35)
  • 機(jī)器學(xué)習(xí)算法系列(四)-- 決策樹

    機(jī)器學(xué)習(xí)算法系列(四)-- 決策樹

    最經(jīng)典的機(jī)器學(xué)習(xí)模型之一,成樹型結(jié)構(gòu),決策樹的目的是為了產(chǎn)生一顆泛化能力強(qiáng),處理未見實(shí)例能力強(qiáng)的樹,通過特征判斷不斷分類,基本流程遵循“分而治之”的遞歸分類策略。 關(guān)鍵 就是選取對(duì)訓(xùn)練數(shù)據(jù)具有分類能力的特征,可提高決策樹學(xué)習(xí)的效率。通常特征選擇

    2023年04月23日
    瀏覽(26)
  • 【機(jī)器學(xué)習(xí)】十大算法之一 “決策樹”

    【機(jī)器學(xué)習(xí)】十大算法之一 “決策樹”

    作者主頁: 愛笑的男孩。的博客_CSDN博客-深度學(xué)習(xí),活動(dòng),python領(lǐng)域博主 愛笑的男孩。擅長深度學(xué)習(xí),活動(dòng),python,等方面的知識(shí),愛笑的男孩。關(guān)注算法,python,計(jì)算機(jī)視覺,圖像處理,深度學(xué)習(xí),pytorch,神經(jīng)網(wǎng)絡(luò),opencv領(lǐng)域. https://blog.csdn.net/Code_and516?type=blog 個(gè)人簡(jiǎn)介:打工人。 持續(xù)分享

    2024年02月11日
    瀏覽(21)
  • Python 機(jī)器學(xué)習(xí)入門 - - 決策樹算法學(xué)習(xí)筆記

    Python 機(jī)器學(xué)習(xí)入門 - - 決策樹算法學(xué)習(xí)筆記

    提示:文章寫完后,目錄可以自動(dòng)生成,如何生成可參考右邊的幫助文檔 ChatGPT一問世就給整個(gè)社會(huì)帶來巨大的震撼和沖擊,不禁讓人驚嘆現(xiàn)在AI的強(qiáng)大,我們好像離通用人工智能更近一步。在過去十幾年人工智能領(lǐng)域的蓬勃發(fā)展中,扮演著主導(dǎo)地位的算法基本都是神經(jīng)網(wǎng)絡(luò)和

    2023年04月08日
    瀏覽(25)
  • 《機(jī)器學(xué)習(xí)核心技術(shù)》分類算法 - 決策樹

    《機(jī)器學(xué)習(xí)核心技術(shù)》分類算法 - 決策樹

    「作者主頁」: 士別三日wyx 「作者簡(jiǎn)介」: CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡(luò)安全領(lǐng)域優(yōu)質(zhì)創(chuàng)作者 「推薦專欄」: 小白零基礎(chǔ)《Python入門到精通》 決策樹是一種 「二叉樹形式」 的預(yù)測(cè)模型,每個(gè) 「節(jié)點(diǎn)」 對(duì)應(yīng)一個(gè) 「判斷條件」 , 「滿足」 上一個(gè)條件才

    2024年02月11日
    瀏覽(28)
  • 傳統(tǒng)機(jī)器學(xué)習(xí)(五)決策樹算法(一)

    傳統(tǒng)機(jī)器學(xué)習(xí)(五)決策樹算法(一)

    ? 可以參考:機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(二)決策樹-分類樹(海洋生物數(shù)據(jù)集案例) 分類樹參數(shù)如下 回歸樹DecisionTreeRegressor的入?yún)⑴c分類樹基本相同,不同之處在于: criterion可選值:mse:默認(rèn),均方差,mae:平均絕對(duì)差,friedman_mse 沒有class_weight 用sklearn建好決策樹后,可以打印出樹的

    2023年04月22日
    瀏覽(23)
  • 機(jī)器學(xué)習(xí)——決策樹1(三種算法)

    機(jī)器學(xué)習(xí)——決策樹1(三種算法)

    要開始了…內(nèi)心還是有些復(fù)雜的 因?yàn)樯婕暗届亍瓎渭兊撵兀梢詥渭?復(fù)雜的熵,如何能通俗理解呢… 我也沒有底氣,且寫且思考吧 首先,決策樹的思想,有點(diǎn)兒像KNN里的KD樹。 KNN里的KD樹,是每次都根據(jù)某個(gè)特征,來將所有數(shù)據(jù)進(jìn)行分類。 決策樹也是,每次都根據(jù)某個(gè)特征

    2024年02月12日
    瀏覽(22)
  • 【人工智能】機(jī)器學(xué)習(xí)中的決策樹

    【人工智能】機(jī)器學(xué)習(xí)中的決策樹

    目錄 特征選擇 特征選擇 樹的生成 樹的剪枝 特征如何選擇 計(jì)算信息增益 樣本集的基尼值 決策樹生成 三種算法對(duì)比 決策樹剪枝 預(yù)剪枝(pre-pruning) 后剪枝(post-pruning) 案例—紅酒分類 案例—帶噪正弦曲線擬合 本次實(shí)驗(yàn)是由python語言為基礎(chǔ)學(xué)習(xí)網(wǎng)站分享給大家 點(diǎn)擊右邊鏈接進(jìn)行

    2024年02月04日
    瀏覽(88)
  • 【機(jī)器學(xué)習(xí)入門】決策樹算法(三):C5.0算法

    【機(jī)器學(xué)習(xí)入門】決策樹算法(三):C5.0算法

    C5.0算法是昆蘭在C4.5算法的基礎(chǔ)上提出的 商用改進(jìn) 版本,目的是對(duì)含有大量數(shù)據(jù)的數(shù)據(jù)集進(jìn)行分析。 C5.0算法的訓(xùn)練過程大致如下。 假設(shè)訓(xùn)練的樣本集S共有n個(gè)樣本,訓(xùn)練決策樹模型的次數(shù)為T,用Ct表示t次訓(xùn)練產(chǎn)生的決策樹模型,經(jīng)過T次訓(xùn)練后最終構(gòu)建的復(fù)合決策樹模型表

    2024年02月08日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包