国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

importance中信息增益和基尼系數(shù)

2年前作者：talentsta分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了importance中信息增益和基尼系數(shù)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

1.信息增益和基尼系數(shù)的異同點(diǎn)

信息增益和基尼系數(shù)都是用于評價(jià)決策樹分裂節(jié)點(diǎn)的指標(biāo),它們有以下主要的相同點(diǎn)和不同點(diǎn):

相同點(diǎn):

都用于測度數(shù)據(jù)集的無序程度(impurity),可以評價(jià)分裂后的無序程度減少量
取值范圍都在0到1之間,0表示完全有序
都遵循同一思路,優(yōu)先選擇造成無序程度最大減少的特征進(jìn)行分裂

不同點(diǎn):

計(jì)算方式不同
- 信息增益基于香農(nóng)熵,衡量分裂前后信息的變化量
- 基尼系數(shù)基于數(shù)據(jù)集標(biāo)記的概率分布,衡量分裂前后不確定性變化量
信息增益更傾向選擇取值較多的特征
基尼系數(shù)在小數(shù)據(jù)集上表現(xiàn)更穩(wěn)定

綜合來說,兩者都可以有效指導(dǎo)決策樹的特征選擇,但計(jì)算和偏好上有一定差異。需要根據(jù)數(shù)據(jù)集和問題領(lǐng)域選擇合適的指標(biāo)。一般來說,分類問題使用信息增益,回歸問題使用基尼系數(shù)的情況較多。

2.如何判斷是使用的信息增益還是基尼指數(shù)

決策樹在選擇特征時(shí)使用的指標(biāo),決定使用信息增益還是基尼系數(shù)主要取決于以下兩個因素:

算法實(shí)現(xiàn)

不同的決策樹算法實(shí)現(xiàn)會有默認(rèn)的指標(biāo)選擇。例如:

scikit-learn中的DecisionTreeClassifier默認(rèn)使用基尼系數(shù)
CART算法通常默認(rèn)使用基尼系數(shù)
ID3算法默認(rèn)使用信息增益
需要查看具體的算法實(shí)現(xiàn)來確認(rèn)默認(rèn)使用的是哪個指標(biāo)。

參數(shù)設(shè)定

一些算法實(shí)現(xiàn)同時(shí)支持信息增益和基尼系數(shù)兩種指標(biāo),可以通過參數(shù)進(jìn)行設(shè)定。

例如scikit-learn中的DecisionTreeClassifier,可以通過criterion參數(shù)設(shè)定:

criterion='gini' 使用基尼系數(shù)
criterion='entropy' 使用信息增益

所以綜合以上兩點(diǎn),可以查看算法的具體實(shí)現(xiàn),以及參數(shù)配置,來判斷該算法是否使用信息增益或基尼系數(shù)作為劃分特征的評價(jià)指標(biāo)。大多數(shù)實(shí)現(xiàn)會有默認(rèn)的指標(biāo),也支持通過參數(shù)進(jìn)行修改。理解算法的原理可以幫助我們做出正確的判斷。

3.各個算法的默認(rèn)參數(shù)

常見的幾種決策樹算法的參數(shù)默認(rèn)使用的特征劃分指標(biāo)如下:

ID3算法:默認(rèn)使用信息增益(information gain)
C4.5算法:默認(rèn)使用信息增益
CART算法:默認(rèn)使用基尼系數(shù)(Gini impurity)
Scikit-Learn的DecisionTreeClassifier:默認(rèn)使用基尼系數(shù)
Scikit-Learn的DecisionTreeRegressor:默認(rèn)使用均方差(mean squared error)
Spark MLlib的DecisionTree:默認(rèn)使用基尼系數(shù)
XGBoost: 默認(rèn)使用基尼系數(shù)
LightGBM: 默認(rèn)使用基尼系數(shù)

所以信息增益更多地在ID3、C4.5中被作為默認(rèn)指標(biāo)。

而基尼系數(shù)被更多地應(yīng)用于CART、Scikit-Learn中的決策樹,以及集成算法(隨機(jī)森林、GBDT等)中。

當(dāng)然,許多算法實(shí)現(xiàn)也提供了通過參數(shù)修改指標(biāo)的功能。

正確理解并配置算法的參數(shù),可以幫助我們構(gòu)建出有效的決策樹模型。

4.與默認(rèn)指標(biāo)不同的設(shè)定

LightGBM也可以使用信息增益作為決策樹劃分的指標(biāo)。

LightGBM默認(rèn)使用基尼系數(shù)來選擇劃分特征,但也提供了使用信息增益的功能選項(xiàng)。

具體來說,在LightGBM的算法參數(shù)中,有一個名為"metric"的參數(shù),它決定了評價(jià)特征劃分的指標(biāo)。默認(rèn)值為"None",表示使用基尼系數(shù)。

如果設(shè)置metric='entropy',則會使用信息增益來選擇特征，所以雖然此時(shí)假如不設(shè)定具體的參數(shù)會默認(rèn)使用基尼指數(shù)來進(jìn)行特征劃分，但是也可以通過修改參數(shù)來使用信息增益進(jìn)行特征選擇。

import lightgbm as lgb
params = {'metric': 'entropy'} 
model = lgb.train(params, lgb_dataset)

?所以您看到的LightGBM使用信息增益(entropy),很可能是通過指定了這個metric參數(shù)來實(shí)現(xiàn)的。

盡管默認(rèn)是基尼系數(shù),但LightGBM提供了靈活的指標(biāo)選擇,我們可以根據(jù)問題需要進(jìn)行配置。

5.根據(jù)不同的情況選擇特征

在決策樹算法中,根據(jù)不同的情況選擇使用信息增益或基尼系數(shù)的一些經(jīng)驗(yàn)準(zhǔn)則如下:

分類問題更傾向使用信息增益,回歸問題更傾向使用基尼系數(shù)。
如果特征取值范圍差異很大,信息增益更適合,因?yàn)樗蜻x擇取值范圍廣的特征。
如果樣本量少于50,基尼系數(shù)表現(xiàn)更穩(wěn)定。
類別不均衡的數(shù)據(jù)集建議使用信息增益,因?yàn)榛嵯禂?shù)容易偏向主要類別。
需要快速構(gòu)建模型,基尼系數(shù)計(jì)算上更有優(yōu)勢。
對訓(xùn)練時(shí)間敏感的大數(shù)據(jù)集,基尼系數(shù)更高效。
喜好樹的結(jié)構(gòu)簡單的情況,基尼系數(shù)可能更合適。
想要獲得可解釋性強(qiáng)的樹,信息增益更適合。

總結(jié)一下,信息增益偏向分類問題,基尼系數(shù)偏向回歸;信息增益適用于取值范圍差異大和類別不均衡的數(shù)據(jù);基尼系數(shù)在小樣本和大數(shù)據(jù)集上表現(xiàn)更好?？梢愿鶕?jù)數(shù)據(jù)集統(tǒng)計(jì)特點(diǎn)和問題需求進(jìn)行選擇。也可以嘗試兩者,看分類準(zhǔn)確率或回歸效果哪個指標(biāo)更優(yōu)。文章來源地址http://www.zghlxwxcb.cn/news/detail-693935.html

importances = svr.coef_
sorted_idx = np.argsort(np.abs(importances))[::-1]

到了這里，關(guān)于importance中信息增益和基尼系數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

機(jī)器學(xué)習(xí)---決策樹的劃分依據(jù)（熵、信息增益、信息增益率、基尼值和基尼指數(shù)）
1. 熵物理學(xué)上，熵 Entropy 是“混亂”程度的量度。系統(tǒng)越有序，熵值越低；系統(tǒng)越混亂或者分散，熵值越?。 1948年?農(nóng)提出了信息熵（Entropy）的概念。 ? ? ? ?從信息的完整性上進(jìn)?的描述：當(dāng)系統(tǒng)的有序狀態(tài)?致時(shí)，數(shù)據(jù)越集中的地?熵值越?，數(shù)據(jù) 越分散的地?熵值
2024年02月10日
瀏覽(24)
python機(jī)器學(xué)習(xí)（六）決策樹(上) 構(gòu)造樹、信息熵的分類和度量、信息增益、CART算法、剪枝
模擬相親的過程，通過相親決策圖，男的去相親，會先選擇性別為女的，然后依次根據(jù)年齡、長相、收入、職業(yè)等信息對相親的另一方有所了解。通過決策圖可以發(fā)現(xiàn)，生活中面臨各種各樣的選擇，基于我們的經(jīng)驗(yàn)和自身需求進(jìn)行一些篩選，把判斷背后的邏輯整理成結(jié)構(gòu)圖，
2024年02月14日
瀏覽(22)
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）
目錄【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）一、決策樹模型 1、常用算法 2、屬性劃分策略 3、其他算法三、決策樹算法性能要求四、決策樹模型
2024年02月13日
瀏覽(22)
機(jī)器學(xué)習(xí)2：決策樹--基于信息增益的ID3算法
? 建立決策樹的過程可以分為以下幾個步驟：計(jì)算每個特征的信息增益或信息增益比，選擇最優(yōu)的特征作為當(dāng)前節(jié)點(diǎn)的劃分標(biāo)準(zhǔn)。根據(jù)選擇的特征將數(shù)據(jù)集劃分為不同的子集。對每個子集遞歸執(zhí)行步驟 1 和步驟 2，直到滿足終止條件。構(gòu)建決策樹，并輸出。計(jì)算每個特征的
2024年02月06日
瀏覽(86)
信息熵,信息增益,增益率的理解
編號色澤根蒂敲聲紋理臍部觸感好瓜 1 青綠蜷縮濁響清晰凹陷硬滑是 2 烏黑蜷縮沉悶清晰凹陷硬滑是 3 烏黑蜷縮濁響清晰凹陷硬滑是 4 青綠蜷縮沉悶清晰凹陷硬滑是 5 淺白蜷縮濁響清晰凹陷硬滑是 6 青綠稍蜷濁響清晰稍凹軟粘是 7 烏黑稍蜷濁
2024年02月12日
瀏覽(49)
Python——Kmeans聚類算法、輪廓系數(shù)（算法理論、代碼）
目錄 1 Kmeans模型理論 1.1 K-均值算法(K-means)算法概述 1.2?距離度量 1.3?K-means算法流程 1.4?K值的選擇 1.5?K-means的優(yōu)點(diǎn) 1.6?K-means的缺點(diǎn) 1.7?聚類的評價(jià)指標(biāo) 2 代碼解釋 3 實(shí)操? 3.1 構(gòu)建聚類數(shù)目為3的KMeans模型 3.2 占比餅圖 3.3 輪廓系數(shù)值 3.4 使用for循環(huán)計(jì)算聚類個數(shù)為2至9時(shí)的輪廓
2024年02月01日
瀏覽(83)
信息增益-決策樹
表8.1給出的是帶有標(biāo)記類的元組的訓(xùn)練集D；類標(biāo)號屬性 buys_computer有兩個不同值：{yes, no} 設(shè) 類 C1 → rightarrow → yes，C2 → rightarrow → no; 已知：C1包含9個元組，C2包含5個元組； age：{‘youth’, ‘middle_aged’, ‘senior’} youth middle_aged senior yes 2 4 3 no 3 0 2 對于 y o u t h youth yo u
2024年03月19日
瀏覽(27)
【機(jī)器學(xué)習(xí)】信息量、香農(nóng)熵、信息增益（增加例子，方便理解）
B站視頻：“交叉熵”如何做損失函數(shù)？打包理解“信息量”、“比特”、“熵”、“KL散度”、“交叉熵” 舉個例子： ? 如果有人告訴你，今天太陽從東邊出來了，那么這條信息的信息量就很低，因?yàn)槊刻斓奶?常常從東邊出來。 ?但是，突然某一天有人告訴你，今天
2024年02月04日
瀏覽(26)
信息熵與信息增益在決策樹生成中的使用
? ? 決策樹是機(jī)器學(xué)習(xí)算法的一種，它主要對給定數(shù)據(jù)集合根據(jù)相關(guān)屬性生成一個類似樹結(jié)構(gòu)的一種決策機(jī)制。 ? ? 生成樹結(jié)構(gòu)，其實(shí)可以很隨便，只要根據(jù)特征值的分支做分叉，把所有的特征遍歷完成，這棵樹就是一顆決策樹。但是要生成一個最優(yōu)決策樹，我們需要選擇合
2024年02月16日
瀏覽(22)
決策樹的劃分依據(jù)之：信息增益率
在上面的介紹中，我們有意忽略了\\\"編號\\\"這一列.若把\\\"編號\\\"也作為一個候選劃分屬性，則根據(jù)信息增益公式可計(jì)算出它的信息增益為 0.9182，遠(yuǎn)大于其他候選劃分屬性。計(jì)算每個屬性的信息熵過程中,我們發(fā)現(xiàn),該屬性的值為0, 也就是其信息增益為0.9182. 但是很明顯這么分類,最后
2024年02月14日
瀏覽(28)