国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）

2年前作者：仙魁XAN分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）

目錄

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）

一、決策樹模型

1、常用算法

2、屬性劃分策略

3、其他算法

三、決策樹算法性能要求

四、決策樹模型創(chuàng)建 ( 遞歸創(chuàng)建決策樹 )

1 、決策樹模型創(chuàng)建

2 、決策樹創(chuàng)建算法 ( 遞歸 )

3 、遞歸操作

4 、遞歸停止的條件

五、決策樹樹根屬性選擇

六、信息增益說明

1、熵和信息的數(shù)據(jù)組成

2 、信息增益分析

3、信息增益計(jì)算步驟

4、信息增益計(jì)算使用的數(shù)據(jù)集 S

七、信息增益計(jì)算公式

1 、已知條件 ( 變量聲明 ) : 聲明一些計(jì)算公式中使用的變量說明

2、信息增益總熵計(jì)算公式

?3、信息增益每個屬性的熵計(jì)算公式

4、信息增益計(jì)算公式

八、信息增益計(jì)算實(shí)例

1 、已知數(shù)據(jù)

2 、總熵計(jì)算 :

3、計(jì)算年齡屬性的熵 :

?4、計(jì)算年齡屬性不同樣本取值的熵 :

?5、計(jì)算年齡屬性的信息增益

6、依次計(jì)算各個屬性的熵 :

?九、信息增益計(jì)算遞歸確定劃分屬性

一、決策樹模型

1 、決策樹 : 決策時基于 “樹” 結(jié)構(gòu) , 這也是模擬人在進(jìn)行決策時采用的策略 ;

2、決策樹組成 : 根節(jié)點(diǎn) , 內(nèi)部節(jié)點(diǎn) , 葉子節(jié)點(diǎn) , 這些節(jié)點(diǎn)都是數(shù)據(jù)的屬性 ( 特征 ) ;

?根節(jié)點(diǎn) : 最初始判定的屬性 , 判定區(qū)域是全局的數(shù)據(jù)集 ;
?內(nèi)部節(jié)點(diǎn) : 中間的判定屬性 , 判定區(qū)域是符合某些特征的子數(shù)據(jù)集 ;
?葉子節(jié)點(diǎn) : 決策結(jié)果 , 位于決策樹的最底層 , 每個葉子節(jié)點(diǎn)都是一個決策結(jié)果 ;
?

3、決策樹模型過程

① 訓(xùn)練過程 : 使用訓(xùn)練集數(shù)據(jù)確定決策時使用的屬性 , 確定根節(jié)點(diǎn) , 內(nèi)部節(jié)點(diǎn) , 葉子節(jié)點(diǎn) 的屬性劃分 , 訓(xùn)練決策樹模型 ;

② 預(yù)測過程 : 從根節(jié)點(diǎn)特征開始 , 根據(jù)決策樹中的判定序列依次從根節(jié)點(diǎn)向下判定 , 直到一個葉子節(jié)點(diǎn) ;

4、實(shí)例說明

1 ） 需求場景 :

① 需求 : 電商網(wǎng)站為用戶進(jìn)行分類 , 目的是確定該用戶是否有可能購買某件商品 , 然后為其推送指定商品的廣告 ;

② 決策樹使用 : 如何對用戶進(jìn)行分類 , 這里就用到了決策樹模型 , 將用戶分成不同的類別 ;

2 ） 數(shù)據(jù)集 : 決策過程中 , 根據(jù)每個節(jié)點(diǎn)所處理的數(shù)據(jù)集的特征 , 將其劃分到不同的子節(jié)點(diǎn)中進(jìn)行處理 ; 如數(shù)據(jù)集中是 100 個用戶的信息 ;

3 ） 決策樹構(gòu)成 :

① 根節(jié)點(diǎn)決策 : 根節(jié)點(diǎn) 處理年齡特征 , 小于 30 歲的用戶劃分到一組 , 大于 30 歲的用戶劃分到另一組 ;

② 內(nèi)部節(jié)點(diǎn)決策 : 然后在小于 30 歲的用戶中繼續(xù)判定 , 學(xué)生劃分成一組 , 非學(xué)生劃分成一組 ;

③ 葉子節(jié)點(diǎn)決策結(jié)果 : 學(xué)生會買電腦 , 非學(xué)生不會買電腦 ;
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

二、常用的決策樹算法?

1、常用算法

?CLS 算法 : 這是第一個決策樹算法 , 1966 年提出 ;
?ID3 算法 : 該算法使決策樹稱為機(jī)器學(xué)習(xí)主流技術(shù) , 1979 年提出 ;
?C4.5 算法 : 最常用的決策樹算法 ; 1993 年提出 ;

?區(qū)別 : 上述三個算法五個組件基本一致 , 唯一的區(qū)別是確定屬性劃分時的策略不同 , 即將哪個屬性放在樹根 , 將哪個屬性放在內(nèi)部節(jié)點(diǎn)上 , 內(nèi)部節(jié)點(diǎn)的屬性所在層級如何設(shè)置 ;

2、屬性劃分策略

① ID3 算法屬性劃分策略 : ID3 使用信息增益策略 ;

② C4.5 算法屬性劃分策略 : C4.5 使用的是增益率策略 ;

3、其他算法

1) CART 算法 : 既可以用于分類任務(wù) ( 結(jié)果是離散值 ) , 也可以用于回歸任務(wù) ( 結(jié)果是連續(xù)值 ) ;

2) FR 算法 : 隨機(jī)森林算法 ; 使用了數(shù)據(jù)挖掘 , 機(jī)器學(xué)習(xí)中的集成思想 ; 有很多差的分類器 , 準(zhǔn)確率都很低 , 但是多個分類器集成起來 , 準(zhǔn)確率就很高 ;
?

三、決策樹算法性能要求

1 、決策樹的高度 :

① 決策樹最大高度 : 決策屬性的個數(shù) ; ( 每個屬性都要決策一次 , 才能預(yù)測出結(jié)果 )

② 決策時最小高度 : 1 ; ( 只需要決策一次 , 就可以預(yù)測出結(jié)果 )

2 . 決策樹性能 : 決策樹越矮越好 , 即預(yù)測某特征 , 進(jìn)行的決策次數(shù)越少越好 ;

3 . 樹根屬性 : 越重要的屬性 , 其越能將數(shù)據(jù)最大可能拆分開 , 將重要的屬性放在樹根 ;

四、決策樹模型創(chuàng)建 ( 遞歸創(chuàng)建決策樹 )

1 、決策樹模型創(chuàng)建

決策樹模型創(chuàng)建的核心就是選擇合適的樹根 , 將重要的屬性放在樹根 , 然后子樹中 , 繼續(xù)選擇子樹中重要的屬性放在子樹的樹根 , 依次遞歸 , 最終得到?jīng)Q策結(jié)果 ( 葉子節(jié)點(diǎn) ) ;

2 、決策樹創(chuàng)建算法 ( 遞歸 )

使用遞歸算法 , 遞歸算法分為遞歸操作和遞歸停止條件 ;

3 、遞歸操作

每個步驟先選擇屬性 , 選擇好屬性后 , 根據(jù) 總樹 ( 子樹 ) 的樹根屬性劃分訓(xùn)練集 ;

① 選擇屬性 : 遞歸由上到下決定每一個節(jié)點(diǎn)的屬性 , 依次遞歸構(gòu)造決策樹 ;

② 數(shù)據(jù)集劃分 : 開始決策時 , 所有的數(shù)據(jù)都在樹根 , 由樹根屬性來劃分?jǐn)?shù)據(jù)集 ;

③ 屬性離散化 : 如果屬性的值是連續(xù)值 , 需要將連續(xù)屬性值離散化 ; 如 : 100 分滿分 , 將 60 分以下分為不及格數(shù)據(jù) , 60 分以上分為及格數(shù)據(jù) ;

4 、遞歸停止的條件

① 子樹分類完成 : 節(jié)點(diǎn)上的子數(shù)據(jù)集都屬于同一個類別 , 該節(jié)點(diǎn)就不再向下劃分 , 稱為葉子節(jié)點(diǎn) ;

② 屬性 ( 節(jié)點(diǎn) ) 全部分配完畢 : 所有的屬性都已經(jīng)分配完畢 , 決策樹的高度等于屬性個數(shù) ;

③ 所有樣本分類完畢 : 所有的樣本數(shù)據(jù)集都分類完成 ;

五、決策樹樹根屬性選擇

1 . 屬性選擇方法 : 樹根屬性選擇的方法很多 , 這里介紹一種常用的方法 , 信息增益 ;

2 . 信息增益 : 信息增益效果越大 , 其作為樹根屬性 , 劃分的數(shù)據(jù)集分類效果越明顯 ;

3 . 信息和熵

① 信息與熵的關(guān)系 : 信息會消除熵 , 熵代表了不確定性 , 信息用來消除不確定性 ;

② 信息增益 : 信息增益大的屬性 , 能最大消除熵的不確定性 ;

4 . 決策樹中的信息增益 : 屬性的信息增益越大 , 就越能將分類效果達(dá)到最大 ;

如 : 想要從用戶數(shù)據(jù)集中找到是否能買奢侈品的用戶 , 先把高收入群體劃分出來 , 將低收入者從數(shù)據(jù)集中去除 , 這個收入水平的屬性 ( 特征 ) , 信息增益就很大 ;

六、信息增益說明

1、熵和信息的數(shù)據(jù)組成

① 數(shù)據(jù)集 ( 熵 ) : 給定一個總的數(shù)據(jù)集如 100 個用戶數(shù)據(jù) , 要從里面選擇購買奢侈品的 1 個用戶 ( 高收入 , 30 歲以下 ) ;

② 年齡屬性 ( 信息 ) : 30 歲以上的 50 個 , 30 歲以下的 50 個 ;

③ 收入屬性 ( 信息 ) : 高收入 10 個 , 低收入 90 個 ;

2 、信息增益分析

① 收入屬性的信息增益 : 熵是 100 個用戶數(shù)據(jù) , 代表不確定性 ; 根據(jù)收入屬性來劃分 , 將高收入者 10 個用戶劃分出來 , 買奢侈品的用戶從這 10 個中選擇 ; 由 100 個用戶中選 1 個用戶 , 變?yōu)?10 個用戶中選擇 1 個用戶 ; 消除了 90 個用戶的不確定性 ;

② 年齡屬性的信息增益 : 熵是 100 個用戶數(shù)據(jù) , 代表不確定性 ; 根據(jù)收入屬性來劃分 , 將30 歲以下的 50 個用戶劃分出來 , 買奢侈品的用戶從這 50 個中選擇 ; 由 100 個用戶中選 1 個用戶 , 變?yōu)?50 個用戶中選擇 1 個用戶 ; 消除了 50 個用戶的不確定性 ;

③ 信息增益分析 : 明顯收入屬性的信息增益要高于年齡屬性的信息增益 ;

3、信息增益計(jì)算步驟

1 ）總熵 : 不考慮輸入變量 ( 屬性 / 特征 ) , 為數(shù)據(jù)集 S 中的某個數(shù)據(jù)樣本進(jìn)行分類 , 計(jì)算出該過程的熵 ( 不確定性 ) , 用 Entropy(S) 表示 ;

2 ）引入屬性后的熵 : 使用輸入變量 ( 屬性 / 特征 ) X 后 , 為數(shù)據(jù)集 S 中的某個數(shù)據(jù)樣本進(jìn)行分類 , 計(jì)算出該過程的熵 ( 不確定性 ) , 用 Entropy(X , S) 表示 ;

3 ）信息增益 : 上面 Entropy(X , S) - Entropy(S) 的差 , 就是 X 屬性 ( 特征 ) 帶來的信息增益 , 用 Gain(X , S) 表示 ;

4、信息增益計(jì)算使用的數(shù)據(jù)集 S

數(shù)據(jù)集 : 根據(jù) 年齡 , 收入水平 , 是否是學(xué)生 , 信用等級 , 預(yù)測該用戶是否會購買商品 ;如下圖

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

① 是否會購買商品 : 9 個會購買 , 5 個不會購買 ;

② 年齡 ( 屬性 ) :

5 個小于 30 歲的人中 , 3 個不會買電腦 , 有 2 個會買商品 ;

4 個 31 ~ 39 歲的人中 , 0 個不會買電腦 , 有 4 個會買商品 ;

5 個大于 40 歲的人中 , 2 個不會買電腦 , 有 3 個會買商品 ;
?

七、信息增益計(jì)算公式

數(shù)據(jù)集如下圖：

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

1 、已知條件 ( 變量聲明 ) : 聲明一些計(jì)算公式中使用的變量說明

① 總的數(shù)據(jù)集 : S

② 最終分類個數(shù) : m , 最終分成 m 個類別 , 如是否購買商品 ( 是 , 否 ) , 就是分成 2 類 , m = 2 ;

③ 分類表示 : C i ( i = 1 , ? , m ) , 如 : 是否購買商品 ( 是 , 否 ) ,? C1? 表示是 ,? C2? 表示否 ;

④ 分類樣本個數(shù) : s i ( i = 1 , ? , m )? , 如 : 是否購買商品 , 會購買的 ( C1? ) 的樣本個數(shù)是 9 人 , 表示為 s1?=9 ;
?

2、信息增益總熵計(jì)算公式

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

① 加和式 : 這是一個 1 到 m 加和式 ;

② 比值權(quán)重 :? s/si?? 表示第i 個樣本數(shù) ( si? ) 與總樣本數(shù) ( s) 比值 ;

示例說明

① 需求 : 判定 14 個用戶是否會購買某商品 , 9 個會購買 , 5 個不購買 ;

② 計(jì)算過程 :
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?3、信息增益每個屬性的熵計(jì)算公式

1 ）計(jì)算熵的屬性 : 屬性 A? 的值為 {a1?,a2?,?,av?} ;

2 ）引入屬性 ( 特征 ) A 后的熵計(jì)算公式 :
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

3）公式解析 :

① 剩余的熵 : 引入屬性 A 后 , 屬性 A 是信息 , 信息會消除熵 , 這里計(jì)算消除后剩余的熵是多少 ;

② 屬性解析 : 這是一個? 1 到? v 的加和式 ,? v 表示 A 屬性的取值個數(shù) ,

如 :? A 表示年齡 , 有 : 30歲以下( a1? ) 有 5 個樣本 , 31 ~ 39 歲 ( a2? ) 有 4 個樣本 , 40 歲以上(? a3? ) 有 5 個樣本 , 所以 v = 3? ;

③ 系數(shù)說明 : 其中 Sj / S ?? 系數(shù) 表示 , 屬性 A ( 年齡特征 ) 的第? j 個版本的比例 , 這個比例越高 , 樣本對多 , 越重要 ;

4）屬性的熵示例說明

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?簡單說明計(jì)算過程解析

① 5/14*?Entropy(2,3) 在 5 個小于 30 歲的人中 , 有 2 個會買商品 , 3 個不會買商品 ;
② 4/14?*Entropy(4,0) 在 4 個 31 ~ 39 歲的人中 , 有 4 個會買商品 , 0 個不會買商品 ;
③ 5/14?*Entropy(3,2) 在 5 個大于 40 歲的人中 , 有 3 個會買商品 , 2 個不會買商品 ;
?

4、信息增益計(jì)算公式

計(jì)算 A A A 屬性的信息增益 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

八、信息增益計(jì)算實(shí)例

數(shù)據(jù)列表如下：

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

1 、已知數(shù)據(jù)

① 數(shù)據(jù)集 : 計(jì)算上述數(shù)據(jù)集? S 的信息增益 , 該數(shù)據(jù)集? S 有 14 個樣本數(shù)據(jù) ;

② 數(shù)據(jù)集屬性 : 數(shù)據(jù)集? S 有? 5 個屬性 , 年齡 , 收入 , 是否是學(xué)生 , 信用等級 , 是否購買商品 ;

③ 預(yù)測屬性 : 根據(jù) 年齡 , 收入 , 是否是學(xué)生 , 信用等級? 4 個屬性 , 預(yù)測是否購買商品這個屬性 ;

2 、總熵計(jì)算 :

① 總熵 : 計(jì)算每個屬性的信息增益 , 先要使用 Entropy(S) 公式計(jì)算出總熵 ;

① 預(yù)測屬性分析 : 最后預(yù)測的屬性是是否購買電腦 , 有兩個取值 , 是或否 , 2 個取值 , 計(jì)算總熵時 , 需要計(jì)算兩項(xiàng) , 分別計(jì)算取值會買電腦和不會買電腦的熵 ;

③ 屬性的具體分類 : 判定 14 個用戶是否會購買某商品 , 9 個會購買 , 5 個不購買 ;

④ 計(jì)算過程 :
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

3、計(jì)算年齡屬性的熵 :

① 引入屬性 : 引入年齡屬性后 , 年齡屬性是信息 , 信息會消除熵 , 這里計(jì)算引入年齡屬性之后的熵是多少 ;

② 年齡屬性分析 : 年齡屬性有 3 種取值 : 30歲以下有 5 個樣本 , 31 ~ 39 歲有 4 個樣本 , 40 歲以上有 5 個樣本 ;

③ 計(jì)算內(nèi)容 :

需要分別計(jì)算 3 種取值的熵各是多少 ,

30歲以下有 5 個樣本 , 需要計(jì)算這 5 個樣本的熵是多少 , 5 個樣本 , 有 3 個人買商品 , 2 個人不買商品 ,

④ 計(jì)算示例 :
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

5/14? * ?Entropy(2,3) 在 5 個小于 30 歲的人中 , 有 2 個會買商品 , 3 個不會買商品 ;
4 /14 * ?Entropy(4,0) 在 4 個 31 ~ 39 歲的人中 , 有 4 個會買商品 , 0 個不會買商品 ;
5/ 14 * Entropy(3,2) 在 5 個大于 40 歲的人中 , 有 3 個會買商品 , 2 個不會買商品 ;

?4、計(jì)算年齡屬性不同樣本取值的熵 :

① 計(jì)算? Entropy(2 , 3) : 5 個人 , 有 2 個人買商品 , 3 個人沒有買商品 ;
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?② 計(jì)算? Entropy(4,0) : 4 個人 , 有 4 個人買商品 , 0 個人沒有買商品 ;
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?③ 計(jì)算? Entropy(3 , 2)? : 5 個人 , 有 3 個人買商品 , 2 個人沒有買商品 ;
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?5、計(jì)算年齡屬性的信息增益

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

6、依次計(jì)算各個屬性的熵 :

① 年齡屬性的信息增益 : Gain ( 年齡 ) = 0.246

② 收入屬性的信息增益 :? Gain ( 收入 ) = 0.029

③ 是否是學(xué)生屬性的信息增益 :? Gain ( 是否是學(xué)生 ) = 0.151

④ 信用等級屬性的信息增益 :? Gain ( 信用等級 ) = 0.048

⑤ 樹根屬性選擇: 年齡屬性的信息增益最大 , 選擇年齡屬性作為樹根 ;

?后續(xù)工作 ( 重要 ) : 選擇完樹根后 , 樹根屬性將數(shù)據(jù)分為不同的子集 , 每個子集再計(jì)算剩余的 3 個屬性 , 哪個屬性的信息增益最大 , 就選那個屬性作為子樹的樹根屬性 ;
?

?九、信息增益計(jì)算遞歸確定劃分屬性

1 . 計(jì)算公式使用 : 根據(jù)上述公式 , 計(jì)算出每個屬性的信息增益 , 遞歸選取信息增益最大的作為樹根

2 . 決策樹創(chuàng)建算法 ( 遞歸 ) : 使用遞歸算法 , 遞歸算法分為遞歸操作和遞歸停止條件 ;

3 . 遞歸操作 : 每個步驟先選擇屬性 , 選擇好屬性后 , 根據(jù) 總樹 ( 子樹 ) 的樹根屬性劃分訓(xùn)練集 ;

① 選擇屬性 : 遞歸由上到下決定每一個節(jié)點(diǎn)的屬性 , 依次遞歸構(gòu)造決策樹 ;

② 數(shù)據(jù)集劃分 : 開始決策時 , 所有的數(shù)據(jù)都在樹根 , 由樹根屬性來劃分?jǐn)?shù)據(jù)集 ;

③ 屬性離散化 : 如果屬性的值是連續(xù)值 , 需要將連續(xù)屬性值離散化 ; 如 : 100 分滿分 , 將 60 分以下分為不及格數(shù)據(jù) , 60 分以上分為及格數(shù)據(jù) ;

4 . 遞歸停止的條件 :

① 子樹分類完成 : 節(jié)點(diǎn)上的子數(shù)據(jù)集都屬于同一個類別 , 該節(jié)點(diǎn)就不再向下劃分 , 稱為葉子節(jié)點(diǎn) ;

② 屬性 ( 節(jié)點(diǎn) ) 全部分配完畢 : 所有的屬性都已經(jīng)分配完畢 , 決策樹的高度等于屬性個數(shù) ;

③ 所有樣本分類完畢 : 所有的樣本數(shù)據(jù)集都分類完成 ;

5 . 下圖是最終的決策樹樣式 :

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）,研究生考試,數(shù)據(jù)挖掘,數(shù)據(jù)分析,人工智能,決策樹,信息增益

?參考博文：

【數(shù)據(jù)挖掘】決策樹算法簡介 ( 決策樹模型 | 模型示例 | 決策樹算法性能要求 | 遞歸創(chuàng)建決策樹 | 樹根屬性選擇 )_討論決策樹屬性選擇的原則和要求

【數(shù)據(jù)挖掘】決策樹中根據(jù) 信息增益確定劃分屬性 ( 信息與熵 | 總熵計(jì)算公式 | 每個屬性的熵計(jì)算公式 | 信息增益計(jì)算公式 | 劃分屬性確定 )_數(shù)據(jù)挖掘決策樹劃分信息熵信息增益文章來源地址http://www.zghlxwxcb.cn/news/detail-534406.html

到了這里，關(guān)于【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之決策樹模型（決策樹模型、決策樹構(gòu)成、決策樹常用算法、決策樹性能要求、信息增益、信息增益計(jì)算公式、決策樹信息增益計(jì)算實(shí)例）的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之貝葉斯信念網(wǎng)絡(luò)（貝葉斯信念網(wǎng)絡(luò)、有向無環(huán)圖、貝葉斯公式、貝葉斯信念網(wǎng)絡(luò)計(jì)算實(shí)例）
目錄【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之貝葉斯信念網(wǎng)絡(luò)（貝葉斯信念網(wǎng)絡(luò)、有向無環(huán)圖、貝葉斯公式、貝葉斯信念網(wǎng)絡(luò)計(jì)算實(shí)例）一、貝葉斯信念網(wǎng)絡(luò) 1 . 屬性關(guān)聯(lián) : 貝葉斯信念網(wǎng)絡(luò) 允許數(shù)據(jù)集樣本屬性之間存在依賴關(guān)系 ; 2 . 貝葉斯信念網(wǎng)絡(luò) 表示方法 : 二、概率圖模型 : 馬爾
2024年02月12日
瀏覽(24)
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之貝葉斯分類算法（樸素貝葉斯分類、貝葉斯分類計(jì)算流程、拉普拉斯修正、貝葉斯分類實(shí)例計(jì)算）
目錄【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之貝葉斯分類算法（樸素貝葉斯分類、貝葉斯分類計(jì)算流程、拉普拉斯修正、貝葉斯分類實(shí)例計(jì)算）一、貝葉斯分類器 1 . 貝葉斯分類器 : 2 . 貝葉斯分類器的類型 : 3 . 正向概率與逆向概率 : 4 . 貝葉斯公式 : 有兩個事件 , 事件? A , 和事件
2024年02月12日
瀏覽(23)
數(shù)據(jù)分享|SAS數(shù)據(jù)挖掘EM貸款違約預(yù)測分析：逐步Logistic邏輯回歸、決策樹、隨機(jī)森林...
近幾年來，各家商業(yè)銀行陸續(xù)推出多種貸款業(yè)務(wù)，如何識別貸款違約因素已經(jīng)成為各家商業(yè)銀行健康有序發(fā)展貸款業(yè)務(wù)的關(guān)鍵（點(diǎn)擊文末“閱讀原文”獲取完整數(shù)據(jù) ）。相關(guān)視頻在貸款違約預(yù)測的數(shù)據(jù) （查看文末了解數(shù)據(jù)免費(fèi)獲取方式）的基礎(chǔ)上，探索是否能通過借貸
2024年02月09日
瀏覽(28)
【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之 K-NN 分類(K-NN、K-NN實(shí)例、準(zhǔn)確率評估方法、準(zhǔn)確率、召回率)
目錄【海量數(shù)據(jù)挖掘/數(shù)據(jù)分析】之 K-NN 分類(K-NN、K-NN實(shí)例、準(zhǔn)確率評估方法、準(zhǔn)確率、召回率) 一、 K-NN 簡介二、K-NN 分類三、K-NN 分類實(shí)例 1、1-NN 分類 : 此時 A 類別有 1 個 , B 類別有 0 個 , 紅色點(diǎn)被分為 A 類別 ; ?2、3-NN 分類 : 此時 A 類別有? 1 個 ,? B 類別有 2 個 , 紅色點(diǎn)
2024年02月12日
瀏覽(104)
Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準(zhǔn)備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應(yīng)用）
20 理解業(yè)務(wù)和數(shù)據(jù)：我們需要做好什么計(jì)劃？_嗶哩嗶哩_bilibili 目錄 ? 一、理解業(yè)務(wù)和數(shù)據(jù):我們需要做好什么計(jì)劃? 1.1兩個思想問題 1.2為什么數(shù)據(jù)挖掘不是萬能的 1.3業(yè)務(wù)背景與目標(biāo) 1.4把握數(shù)據(jù)? 1.5總結(jié) 二、準(zhǔn)備數(shù)據(jù)：如何處理出完整、干凈的數(shù)據(jù)？ 2.1找到數(shù)據(jù) 2.2數(shù)據(jù)探索
2024年02月05日
瀏覽(29)
SQL SERVER ANALYSIS SERVICES決策樹、聚類、關(guān)聯(lián)規(guī)則挖掘分析電商購物網(wǎng)站的用戶行為數(shù)據(jù)...
假如你有一個購物類的網(wǎng)站，那么你如何給你的客戶來推薦產(chǎn)品呢？（點(diǎn)擊文末“閱讀原文”獲取完整文檔、數(shù)據(jù) ）相關(guān)視頻這個功能在很多電商類網(wǎng)站都有，那么，通過SQL Server Analysis Services的數(shù)據(jù)挖掘功能，你也可以輕松的來構(gòu)建類似的功能。將分為三個部分來演示
2024年02月16日
瀏覽(41)
關(guān)聯(lián)規(guī)則挖掘（上）：數(shù)據(jù)分析 | 數(shù)據(jù)挖掘 | 十大算法之一
??????????歡迎來到我的博客?????????? ??作者：秋無之地 ??簡介：CSDN爬蟲、后端、大數(shù)據(jù)領(lǐng)域創(chuàng)作者。目前從事python爬蟲、后端和大數(shù)據(jù)等相關(guān)工作，主要擅長領(lǐng)域有：爬蟲、后端、大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析等。 ??歡迎小伙伴們點(diǎn)贊????、收藏
2024年02月07日
瀏覽(32)
數(shù)據(jù)挖掘與數(shù)據(jù)分析
目錄數(shù)據(jù)挖掘與數(shù)據(jù)分析一．?dāng)?shù)據(jù)的本質(zhì) 二．什么是數(shù)據(jù)挖掘和數(shù)據(jù)分析三．?dāng)?shù)據(jù)挖掘和數(shù)據(jù)分析有什么區(qū)別案例及應(yīng)用 1. 基于分類模型的案例 2. 基于預(yù)測模型的案例 3. 基于關(guān)聯(lián)分析的案例 4. 基于聚類分析的案例 5. 基于異常值分析的案例 6. 基于協(xié)同過濾的案例 7. 基于
2024年04月28日
瀏覽(21)
數(shù)據(jù)分析、數(shù)據(jù)挖掘常用的數(shù)據(jù)清洗方法
數(shù)據(jù)的完整性—例如：人的屬性中缺少性別數(shù)據(jù)的唯一性—例如：不同來源的數(shù)據(jù)出現(xiàn)重復(fù) 數(shù)據(jù)的權(quán)威性—例如：同一個指標(biāo)出現(xiàn)多個來源的數(shù)據(jù)且數(shù)值不同數(shù)據(jù)的合法性—例如：獲取的數(shù)據(jù)與常識不符，年齡大于200歲數(shù)據(jù)的一致性—例如：不同來源的不同指標(biāo)，實(shí)際內(nèi)涵
2024年02月08日
瀏覽(24)
數(shù)據(jù)挖掘-實(shí)戰(zhàn)記錄（一）糖尿病python數(shù)據(jù)挖掘及其分析
一、準(zhǔn)備數(shù)據(jù) 1.查看數(shù)據(jù) 二、數(shù)據(jù)探索性分析 1.數(shù)據(jù)描述型分析 2.各特征值與結(jié)果的關(guān)系 a)研究各個特征值本身類別 b)研究懷孕次數(shù)特征值與結(jié)果的關(guān)系 c)其他特征值 3.研究各特征互相的關(guān)系三、數(shù)據(jù)預(yù)處理 1.去掉唯一屬性 2.處理缺失值 a)標(biāo)記缺失值 b)刪除缺失值行數(shù) ?c
2024年02月11日
瀏覽(23)