国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

importance中信息增益和基尼系數(shù)

這篇具有很好參考價(jià)值的文章主要介紹了importance中信息增益和基尼系數(shù)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1.信息增益和基尼系數(shù)的異同點(diǎn)

信息增益和基尼系數(shù)都是用于評價(jià)決策樹分裂節(jié)點(diǎn)的指標(biāo),它們有以下主要的相同點(diǎn)和不同點(diǎn):

相同點(diǎn):

  • 都用于測度數(shù)據(jù)集的無序程度(impurity),可以評價(jià)分裂后的無序程度減少量
  • 取值范圍都在0到1之間,0表示完全有序
  • 都遵循同一思路,優(yōu)先選擇造成無序程度最大減少的特征進(jìn)行分裂

不同點(diǎn):

  • 計(jì)算方式不同
    • 信息增益基于香農(nóng)熵,衡量分裂前后信息的變化量
    • 基尼系數(shù)基于數(shù)據(jù)集標(biāo)記的概率分布,衡量分裂前后不確定性變化量
  • 信息增益更傾向選擇取值較多的特征
  • 基尼系數(shù)在小數(shù)據(jù)集上表現(xiàn)更穩(wěn)定

綜合來說,兩者都可以有效指導(dǎo)決策樹的特征選擇,但計(jì)算和偏好上有一定差異。需要根據(jù)數(shù)據(jù)集和問題領(lǐng)域選擇合適的指標(biāo)。一般來說,分類問題使用信息增益,回歸問題使用基尼系數(shù)的情況較多。

2.如何判斷是使用的信息增益還是基尼指數(shù)

決策樹在選擇特征時(shí)使用的指標(biāo),決定使用信息增益還是基尼系數(shù)主要取決于以下兩個因素:

算法實(shí)現(xiàn)

不同的決策樹算法實(shí)現(xiàn)會有默認(rèn)的指標(biāo)選擇。例如:

  • scikit-learn中的DecisionTreeClassifier默認(rèn)使用基尼系數(shù)
  • CART算法通常默認(rèn)使用基尼系數(shù)
  • ID3算法默認(rèn)使用信息增益
  • 需要查看具體的算法實(shí)現(xiàn)來確認(rèn)默認(rèn)使用的是哪個指標(biāo)。

參數(shù)設(shè)定

一些算法實(shí)現(xiàn)同時(shí)支持信息增益和基尼系數(shù)兩種指標(biāo),可以通過參數(shù)進(jìn)行設(shè)定。

例如scikit-learn中的DecisionTreeClassifier,可以通過criterion參數(shù)設(shè)定:

  • criterion='gini' 使用基尼系數(shù)
  • criterion='entropy' 使用信息增益

所以綜合以上兩點(diǎn),可以查看算法的具體實(shí)現(xiàn),以及參數(shù)配置,來判斷該算法是否使用信息增益或基尼系數(shù)作為劃分特征的評價(jià)指標(biāo)。大多數(shù)實(shí)現(xiàn)會有默認(rèn)的指標(biāo),也支持通過參數(shù)進(jìn)行修改。理解算法的原理可以幫助我們做出正確的判斷。

3.各個算法的默認(rèn)參數(shù)

常見的幾種決策樹算法的參數(shù)默認(rèn)使用的特征劃分指標(biāo)如下:

  • ID3算法:默認(rèn)使用信息增益(information gain)
  • C4.5算法:默認(rèn)使用信息增益
  • CART算法:默認(rèn)使用基尼系數(shù)(Gini impurity)
  • Scikit-Learn的DecisionTreeClassifier:默認(rèn)使用基尼系數(shù)
  • Scikit-Learn的DecisionTreeRegressor:默認(rèn)使用均方差(mean squared error)
  • Spark MLlib的DecisionTree:默認(rèn)使用基尼系數(shù)
  • XGBoost: 默認(rèn)使用基尼系數(shù)
  • LightGBM: 默認(rèn)使用基尼系數(shù)

所以信息增益更多地在ID3、C4.5中被作為默認(rèn)指標(biāo)。

而基尼系數(shù)被更多地應(yīng)用于CART、Scikit-Learn中的決策樹,以及集成算法(隨機(jī)森林、GBDT等)中。

當(dāng)然,許多算法實(shí)現(xiàn)也提供了通過參數(shù)修改指標(biāo)的功能。

正確理解并配置算法的參數(shù),可以幫助我們構(gòu)建出有效的決策樹模型。

4.與默認(rèn)指標(biāo)不同的設(shè)定

LightGBM也可以使用信息增益作為決策樹劃分的指標(biāo)。

LightGBM默認(rèn)使用基尼系數(shù)來選擇劃分特征,但也提供了使用信息增益的功能選項(xiàng)。

具體來說,在LightGBM的算法參數(shù)中,有一個名為"metric"的參數(shù),它決定了評價(jià)特征劃分的指標(biāo)。默認(rèn)值為"None",表示使用基尼系數(shù)。

如果設(shè)置metric='entropy',則會使用信息增益來選擇特征,所以雖然此時(shí)假如不設(shè)定具體的參數(shù)會默認(rèn)使用基尼指數(shù)來進(jìn)行特征劃分,但是也可以通過修改參數(shù)來使用信息增益進(jìn)行特征選擇。

import lightgbm as lgb
params = {'metric': 'entropy'} 
model = lgb.train(params, lgb_dataset)

?所以您看到的LightGBM使用信息增益(entropy),很可能是通過指定了這個metric參數(shù)來實(shí)現(xiàn)的。

盡管默認(rèn)是基尼系數(shù),但LightGBM提供了靈活的指標(biāo)選擇,我們可以根據(jù)問題需要進(jìn)行配置。

5.根據(jù)不同的情況選擇特征

在決策樹算法中,根據(jù)不同的情況選擇使用信息增益或基尼系數(shù)的一些經(jīng)驗(yàn)準(zhǔn)則如下:

  1. 分類問題更傾向使用信息增益,回歸問題更傾向使用基尼系數(shù)。
  2. 如果特征取值范圍差異很大,信息增益更適合,因?yàn)樗蜻x擇取值范圍廣的特征。
  3. 如果樣本量少于50,基尼系數(shù)表現(xiàn)更穩(wěn)定。
  4. 類別不均衡的數(shù)據(jù)集建議使用信息增益,因?yàn)榛嵯禂?shù)容易偏向主要類別。
  5. 需要快速構(gòu)建模型,基尼系數(shù)計(jì)算上更有優(yōu)勢。
  6. 對訓(xùn)練時(shí)間敏感的大數(shù)據(jù)集,基尼系數(shù)更高效。
  7. 喜好樹的結(jié)構(gòu)簡單的情況,基尼系數(shù)可能更合適。
  8. 想要獲得可解釋性強(qiáng)的樹,信息增益更適合。

總結(jié)一下,信息增益偏向分類問題,基尼系數(shù)偏向回歸;信息增益適用于取值范圍差異大和類別不均衡的數(shù)據(jù);基尼系數(shù)在小樣本和大數(shù)據(jù)集上表現(xiàn)更好??梢愿鶕?jù)數(shù)據(jù)集統(tǒng)計(jì)特點(diǎn)和問題需求進(jìn)行選擇。也可以嘗試兩者,看分類準(zhǔn)確率或回歸效果哪個指標(biāo)更優(yōu)。文章來源地址http://www.zghlxwxcb.cn/news/detail-693935.html

importances = svr.coef_
sorted_idx = np.argsort(np.abs(importances))[::-1]

到了這里,關(guān)于importance中信息增益和基尼系數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 機(jī)器學(xué)習(xí)---決策樹的劃分依據(jù)(熵、信息增益、信息增益率、基尼值和基尼指數(shù))

    機(jī)器學(xué)習(xí)---決策樹的劃分依據(jù)(熵、信息增益、信息增益率、基尼值和基尼指數(shù))

    1. 熵 物理學(xué)上,熵 Entropy 是“混亂”程度的量度。 系統(tǒng)越有序,熵值越低;系統(tǒng)越混亂或者分散,熵值越?。 1948年?農(nóng)提出了信息熵(Entropy)的概念。 ? ? ? ?從信息的完整性上進(jìn)?的描述:當(dāng)系統(tǒng)的有序狀態(tài)?致時(shí),數(shù)據(jù)越集中的地?熵值越?,數(shù)據(jù) 越分散的地?熵值

    2024年02月10日
    瀏覽(24)
  • python機(jī)器學(xué)習(xí)(六)決策樹(上) 構(gòu)造樹、信息熵的分類和度量、信息增益、CART算法、剪枝

    python機(jī)器學(xué)習(xí)(六)決策樹(上) 構(gòu)造樹、信息熵的分類和度量、信息增益、CART算法、剪枝

    模擬相親的過程,通過相親決策圖,男的去相親,會先選擇性別為女的,然后依次根據(jù)年齡、長相、收入、職業(yè)等信息對相親的另一方有所了解。 通過決策圖可以發(fā)現(xiàn),生活中面臨各種各樣的選擇,基于我們的經(jīng)驗(yàn)和自身需求進(jìn)行一些篩選,把判斷背后的邏輯整理成結(jié)構(gòu)圖,

    2024年02月14日
    瀏覽(22)
  • 【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之 決策樹模型(決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例)

    【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之 決策樹模型(決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例)

    目錄 【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之 決策樹模型(決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例) 一、決策樹模型 1、常用算法 2、屬性劃分策略 3、其他算法 三、決策樹算法性能要求 四、 決策樹模型

    2024年02月13日
    瀏覽(22)
  • 機(jī)器學(xué)習(xí)2:決策樹--基于信息增益的ID3算法

    機(jī)器學(xué)習(xí)2:決策樹--基于信息增益的ID3算法

    ? 建立決策樹的過程可以分為以下幾個步驟: 計(jì)算每個特征的信息增益或信息增益比,選擇最優(yōu)的特征作為當(dāng)前節(jié)點(diǎn)的劃分標(biāo)準(zhǔn)。 根據(jù)選擇的特征將數(shù)據(jù)集劃分為不同的子集。 對每個子集遞歸執(zhí)行步驟 1 和步驟 2,直到滿足終止條件。 構(gòu)建決策樹,并輸出。 計(jì)算每個特征的

    2024年02月06日
    瀏覽(86)
  • 信息熵,信息增益,增益率的理解

    編號 色澤 根蒂 敲聲 紋理 臍部 觸感 好瓜 1 青綠 蜷縮 濁響 清晰 凹陷 硬滑 是 2 烏黑 蜷縮 沉悶 清晰 凹陷 硬滑 是 3 烏黑 蜷縮 濁響 清晰 凹陷 硬滑 是 4 青綠 蜷縮 沉悶 清晰 凹陷 硬滑 是 5 淺白 蜷縮 濁響 清晰 凹陷 硬滑 是 6 青綠 稍蜷 濁響 清晰 稍凹 軟粘 是 7 烏黑 稍蜷 濁

    2024年02月12日
    瀏覽(49)
  • Python——Kmeans聚類算法、輪廓系數(shù)(算法理論、代碼)

    Python——Kmeans聚類算法、輪廓系數(shù)(算法理論、代碼)

    目錄 1 Kmeans模型理論 1.1 K-均值算法(K-means)算法概述 1.2?距離度量 1.3?K-means算法流程 1.4?K值的選擇 1.5?K-means的優(yōu)點(diǎn) 1.6?K-means的缺點(diǎn) 1.7?聚類的評價(jià)指標(biāo) 2 代碼解釋 3 實(shí)操? 3.1 構(gòu)建聚類數(shù)目為3的KMeans模型 3.2 占比餅圖 3.3 輪廓系數(shù)值 3.4 使用for循環(huán)計(jì)算聚類個數(shù)為2至9時(shí)的輪廓

    2024年02月01日
    瀏覽(83)
  • 信息增益-決策樹

    信息增益-決策樹

    表8.1給出的是帶有標(biāo)記類的元組的訓(xùn)練集D; 類標(biāo)號屬性 buys_computer有兩個不同值:{yes, no} 設(shè) 類 C1 → rightarrow → yes,C2 → rightarrow → no; 已知:C1包含9個元組,C2包含5個元組; age:{‘youth’, ‘middle_aged’, ‘senior’} youth middle_aged senior yes 2 4 3 no 3 0 2 對于 y o u t h youth yo u

    2024年03月19日
    瀏覽(27)
  • 【機(jī)器學(xué)習(xí)】信息量、香農(nóng)熵、信息增益(增加例子,方便理解)

    【機(jī)器學(xué)習(xí)】信息量、香農(nóng)熵、信息增益(增加例子,方便理解)

    B站視頻:“交叉熵”如何做損失函數(shù)?打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 舉個例子: ? 如果有人告訴你,今天太陽從東邊出來了,那么這條信息的信息量就 很低 ,因?yàn)槊刻斓奶?常常從 東邊出來。 ?但是,突然某一天有人告訴你,今天

    2024年02月04日
    瀏覽(26)
  • 信息熵與信息增益在決策樹生成中的使用

    信息熵與信息增益在決策樹生成中的使用

    ? ? 決策樹是機(jī)器學(xué)習(xí)算法的一種,它主要對給定數(shù)據(jù)集合根據(jù)相關(guān)屬性生成一個類似樹結(jié)構(gòu)的一種決策機(jī)制。 ? ? 生成樹結(jié)構(gòu),其實(shí)可以很隨便,只要根據(jù)特征值的分支做分叉,把所有的特征遍歷完成,這棵樹就是一顆決策樹。但是要生成一個最優(yōu)決策樹,我們需要選擇合

    2024年02月16日
    瀏覽(22)
  • 決策樹的劃分依據(jù)之:信息增益率

    決策樹的劃分依據(jù)之:信息增益率

    在上面的介紹中,我們有意忽略了\\\"編號\\\"這一列.若把\\\"編號\\\"也作為一個候選劃分屬性,則根據(jù)信息增益公式可計(jì)算出它的信息增益為 0.9182,遠(yuǎn)大于其他候選劃分屬性。 計(jì)算每個屬性的信息熵過程中,我們發(fā)現(xiàn),該屬性的值為0, 也就是其信息增益為0.9182. 但是很明顯這么分類,最后

    2024年02月14日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包