国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

信息熵與信息增益在決策樹(shù)生成中的使用

這篇具有很好參考價(jià)值的文章主要介紹了信息熵與信息增益在決策樹(shù)生成中的使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

? ? 決策樹(shù)是機(jī)器學(xué)習(xí)算法的一種,它主要對(duì)給定數(shù)據(jù)集合根據(jù)相關(guān)屬性生成一個(gè)類(lèi)似樹(shù)結(jié)構(gòu)的一種決策機(jī)制。

? ? 生成樹(shù)結(jié)構(gòu),其實(shí)可以很隨便,只要根據(jù)特征值的分支做分叉,把所有的特征遍歷完成,這棵樹(shù)就是一顆決策樹(shù)。但是要生成一個(gè)最優(yōu)決策樹(shù),我們需要選擇合適的根節(jié)點(diǎn)。

? ? 有一種選擇根節(jié)點(diǎn)的算法是ID3算法,它根據(jù)信息增益來(lái)選擇特征作為根節(jié)點(diǎn)。

? ? ?信息熵的定義:香濃提出熵的概念,表示隨機(jī)變量不確定度的衡量。

? ? ?從描述看來(lái),不確定度,這里其實(shí)就隱含著概率的問(wèn)題,而熵的計(jì)算公式,正是用來(lái)計(jì)算這個(gè)概率和。設(shè)X是一個(gè)取值有限的離散隨機(jī)變量,其概率分布為:

,則隨機(jī)變量X的熵定義為:

? ? 這個(gè)公式看著有些奇怪,我們計(jì)算信息熵,應(yīng)該是一個(gè)概率和,最終是大于0的數(shù)字,這個(gè)公式里面怎么有一個(gè)減號(hào)-,其實(shí)我們知道這里概率是一個(gè)0-1之間的數(shù)字,最大不超過(guò)1,而對(duì)數(shù)函數(shù)在0-1范圍,結(jié)果就是負(fù)數(shù),如下所示:

信息熵與信息增益在決策樹(shù)生成中的使用,人工智能,決策樹(shù),機(jī)器學(xué)習(xí),香濃熵,信息增益,ID3算法

? ? 所以,這里的減號(hào)正好將負(fù)數(shù)變?yōu)檎龜?shù),最后結(jié)果就大于0并不是負(fù)數(shù)。

? ? 熵的結(jié)果,只能說(shuō)明信息不確定度。熵越大,信息不確定度越大,樣本分布越分散,熵越小,不確定度越小,樣本更集中。

? ? ?比如我們通過(guò)如下示例來(lái)看看樣本分布情況對(duì)應(yīng)的熵。

信息熵與信息增益在決策樹(shù)生成中的使用,人工智能,決策樹(shù),機(jī)器學(xué)習(xí),香濃熵,信息增益,ID3算法

? ? 上圖中,我們假定

? ? 1、所有樣本都是一個(gè)顏色,那么熵最后計(jì)算的結(jié)果是0。?

? ? 2、樣本中混入一個(gè)紅色,那么最后計(jì)算結(jié)果是0.811,

? ? 3、樣本中紅色,藍(lán)色都是一樣的,他們概率都是50%,那么熵的結(jié)果就是1。

? ? 熵的結(jié)果與樣本結(jié)果有關(guān),與特征值沒(méi)有關(guān)系。

? ? 信息增益的定義:字面意思來(lái)說(shuō),它是一個(gè)差值,信息增益的差值,而這個(gè)信息增益差,需要和特征和特征值掛鉤,這里就產(chǎn)生一個(gè)權(quán)重,特征值對(duì)應(yīng)樣本占總體樣本的比例。它又是另一個(gè)層面的概率。

? ? ?定義如下:假定特征a有如下可能取值,也就是分支:{?},如果使用a來(lái)進(jìn)行劃分,就會(huì)產(chǎn)生v個(gè)分支。其中,第v個(gè)分支,包含了樣本X中,取值為的樣本,記為,我們可以根據(jù)前面信息熵的定義計(jì)算的熵??紤]有v個(gè)分支樣本量不相同,假定每個(gè)分支的權(quán)重,如是,就可以計(jì)算出使用特征a來(lái)劃分?jǐn)?shù)據(jù)集X的信息增益:

? ? 信息增益表示的意思,使用特征a來(lái)劃分對(duì)整個(gè)樣本純度提升的大小,提升越大,這個(gè)特征就越好,所以在構(gòu)建決策樹(shù)的時(shí)候,我們優(yōu)先選擇這個(gè)特征。選擇完當(dāng)前特征,我們就應(yīng)該去掉該特征?,繼續(xù)使用剩下的特征來(lái)進(jìn)行新的劃分,直到所有特征劃分完成。

? ? 下面根據(jù)一個(gè)具體的示例,我們來(lái)看看如何選擇一個(gè)好的根節(jié)點(diǎn)。

? ? ?如下所示,是一個(gè)銀行根據(jù)貸款對(duì)象的年齡,工作,房產(chǎn),貸款情況決定是否給與貸款的樣本:

信息熵與信息增益在決策樹(shù)生成中的使用,人工智能,決策樹(shù),機(jī)器學(xué)習(xí),香濃熵,信息增益,ID3算法

? ? 第一個(gè)表格是樣本情況,第二個(gè)表格是根據(jù)第一個(gè)表格進(jìn)行的樣本統(tǒng)計(jì)。

? ? 接著我們使用上面的信息熵和信息增益來(lái)計(jì)算相關(guān)數(shù)據(jù)。

? ? 總體信息熵,這個(gè)只需要通過(guò)樣本中是、否的概率來(lái)計(jì)算即可。

? ? Ent(X) =??=??0.971

? ? 信息增益:

? ? ?Gain(X, 年齡) =?

? ? ?Gain(X, 工作) =?

? ? ?Gain(X, 房產(chǎn)) =?

? ? ?Gain(X, 貸款情況) =?

? ? 以上計(jì)算過(guò)程通過(guò)代碼演示如下:

from math import log2


def create_datasets():
    datasets = [[0, 0, 0, 0, 'no'],
                [0, 0, 0, 1, 'no'],
                [0, 1, 0, 1, 'yes'],
                [0, 1, 1, 0, 'yes'],
                [0, 0, 0, 0, 'no'],
                [1, 0, 0, 0, 'no'],
                [1, 0, 0, 1, 'no'],
                [1, 1, 1, 1, 'yes'],
                [1, 0, 1, 2, 'yes'],
                [1, 0, 1, 2, 'yes'],
                [2, 0, 1, 2, 'yes'],
                [2, 0, 1, 1, 'yes'],
                [2, 1, 0, 1, 'yes'],
                [2, 1, 0, 2, 'yes'],
                [2, 0, 0, 0, 'no']]
    labels = ['F-Age', 'F-Work', 'F-House', 'F-Loan', 'Target']
    return datasets, labels


def calc_shannon_entropy(datasets):
    data_len = len(datasets)
    label_count = {}
    for i in range(data_len):
        label = datasets[i][-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    entropy = -sum([(p / data_len) * log2(p / data_len) for p in label_count.values()])
    return entropy


def cal_condition_entropy(datasets, axis=0):
    data_len = len(datasets)
    feature_sets = {}
    for i in range(data_len):
        feature = datasets[i][axis]
        if feature not in feature_sets:
            feature_sets[feature] = []
        feature_sets[feature].append(datasets[i])
    condition_entropy = sum([(len(p) / data_len) * calc_shannon_entropy(p) for p in feature_sets.values()])
    return condition_entropy


def info_gain(entropy, condition_entropy):
    return entropy - condition_entropy


def info_gain_train(datasets, labels):
    count = len(datasets[0]) - 1
    entropy = calc_shannon_entropy(datasets)
    best_feature = []
    for i in range(count):
        info_gain_i = info_gain(entropy, cal_condition_entropy(datasets, axis=i))
        best_feature.append((i, info_gain_i))
        print('feature : {},info_gain : {:.3f}'.format(labels[i], info_gain_i))
    best_ = max(best_feature, key=lambda x: x[-1])
    return labels[best_[0]]


if __name__ == '__main__':
    datasets, labels = create_datasets()
    ent = calc_shannon_entropy(datasets)
    print('entropy : {}'.format(ent))
    feature = info_gain_train(datasets, labels)
    print('best feature : {}'.format(feature))

? ? 運(yùn)行結(jié)果:
entropy : 0.9709505944546686
feature : F-Age,info_gain : 0.083
feature : F-Work,info_gain : 0.324
feature : F-House,info_gain : 0.420
feature : F-Loan,info_gain : 0.363
best feature : F-House?

? ?在決策樹(shù)生成過(guò)程中,上面的部分只是一個(gè)開(kāi)端,求出了最合適的根節(jié)點(diǎn),后續(xù)還需要根據(jù)其他特征繼續(xù)遞歸求解新的合適的節(jié)點(diǎn)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-578651.html

到了這里,關(guān)于信息熵與信息增益在決策樹(shù)生成中的使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 決策樹(shù)分類(lèi)算法(一)(信息熵,信息增益,基尼指數(shù)計(jì)算)

    決策樹(shù)分類(lèi)算法(一)(信息熵,信息增益,基尼指數(shù)計(jì)算)

    覺(jué)得有用的請(qǐng)先點(diǎn)贊后收藏!不要只收藏不點(diǎn)贊! 例子: : I ( x ) = log ? 2 1 p = ? log ? 2 p I(x)=log_{2}{frac{1}{p}}=-log_{2}{p} I ( x ) = lo g 2 ? p 1 ? = ? lo g 2 ? p 假設(shè)中國(guó)足球隊(duì)和巴西足球隊(duì)曾經(jīng)有過(guò)8次比賽,其中中國(guó)隊(duì)勝1次。以U表示未來(lái)的中巴比賽中國(guó)隊(duì)勝的事件,那么U的先

    2024年01月16日
    瀏覽(19)
  • 決策樹(shù)的劃分依據(jù)之:信息增益率

    決策樹(shù)的劃分依據(jù)之:信息增益率

    在上面的介紹中,我們有意忽略了\\\"編號(hào)\\\"這一列.若把\\\"編號(hào)\\\"也作為一個(gè)候選劃分屬性,則根據(jù)信息增益公式可計(jì)算出它的信息增益為 0.9182,遠(yuǎn)大于其他候選劃分屬性。 計(jì)算每個(gè)屬性的信息熵過(guò)程中,我們發(fā)現(xiàn),該屬性的值為0, 也就是其信息增益為0.9182. 但是很明顯這么分類(lèi),最后

    2024年02月14日
    瀏覽(28)
  • 決策樹(shù)之用信息增益選擇最優(yōu)特征

    決策樹(shù)之用信息增益選擇最優(yōu)特征

    決策樹(shù)之用信息增益選擇最優(yōu)特征 熵 ? 熵的定義: 熵(shāng),熱力學(xué)中表征物質(zhì)狀態(tài)的參量之一,用符號(hào)S表示,其物理意義是體系混亂程度的度量。 在決策樹(shù)中,信息增益是由熵構(gòu)建而成,表示的是[隨機(jī)變量的不確定性],不確定性越大,代表著熵越大。隨機(jī)變量的取值

    2024年02月01日
    瀏覽(19)
  • 機(jī)器學(xué)習(xí)2:決策樹(shù)--基于信息增益的ID3算法

    機(jī)器學(xué)習(xí)2:決策樹(shù)--基于信息增益的ID3算法

    ? 建立決策樹(shù)的過(guò)程可以分為以下幾個(gè)步驟: 計(jì)算每個(gè)特征的信息增益或信息增益比,選擇最優(yōu)的特征作為當(dāng)前節(jié)點(diǎn)的劃分標(biāo)準(zhǔn)。 根據(jù)選擇的特征將數(shù)據(jù)集劃分為不同的子集。 對(duì)每個(gè)子集遞歸執(zhí)行步驟 1 和步驟 2,直到滿(mǎn)足終止條件。 構(gòu)建決策樹(shù),并輸出。 計(jì)算每個(gè)特征的

    2024年02月06日
    瀏覽(86)
  • python機(jī)器學(xué)習(xí)(六)決策樹(shù)(上) 構(gòu)造樹(shù)、信息熵的分類(lèi)和度量、信息增益、CART算法、剪枝

    python機(jī)器學(xué)習(xí)(六)決策樹(shù)(上) 構(gòu)造樹(shù)、信息熵的分類(lèi)和度量、信息增益、CART算法、剪枝

    模擬相親的過(guò)程,通過(guò)相親決策圖,男的去相親,會(huì)先選擇性別為女的,然后依次根據(jù)年齡、長(zhǎng)相、收入、職業(yè)等信息對(duì)相親的另一方有所了解。 通過(guò)決策圖可以發(fā)現(xiàn),生活中面臨各種各樣的選擇,基于我們的經(jīng)驗(yàn)和自身需求進(jìn)行一些篩選,把判斷背后的邏輯整理成結(jié)構(gòu)圖,

    2024年02月14日
    瀏覽(22)
  • 數(shù)據(jù)挖掘題目:根據(jù)規(guī)則模板和信息表找出R中的所有強(qiáng)關(guān)聯(lián)規(guī)則,基于信息增益、利用判定樹(shù)進(jìn)行歸納分類(lèi),計(jì)算信息熵的代碼

    S∈R,P(S,x )∧ Q(S,y )== Gpa(S,w ) [ s, c ] 其中,P,Q ∈{ Major, Status ,Age }. Major Status Age Gpa Count Arts Graduate Old Good 50 Arts Graduate Old Excellent 150 Arts Undergraduate Young Good 150 Appl_ science Undergraduate Young Excellent Science Undergraduate Young Good 100 解答: 樣本總數(shù)為500,最小支持?jǐn)?shù)為5

    2024年02月06日
    瀏覽(28)
  • 【人工智能】機(jī)器學(xué)習(xí)中的決策樹(shù)

    【人工智能】機(jī)器學(xué)習(xí)中的決策樹(shù)

    目錄 特征選擇 特征選擇 樹(shù)的生成 樹(shù)的剪枝 特征如何選擇 計(jì)算信息增益 樣本集的基尼值 決策樹(shù)生成 三種算法對(duì)比 決策樹(shù)剪枝 預(yù)剪枝(pre-pruning) 后剪枝(post-pruning) 案例—紅酒分類(lèi) 案例—帶噪正弦曲線(xiàn)擬合 本次實(shí)驗(yàn)是由python語(yǔ)言為基礎(chǔ)學(xué)習(xí)網(wǎng)站分享給大家 點(diǎn)擊右邊鏈接進(jìn)行

    2024年02月04日
    瀏覽(89)
  • 決策樹(shù)在社交網(wǎng)絡(luò)和人工智能中的應(yīng)用

    決策樹(shù)是一種常用的機(jī)器學(xué)習(xí)算法,它可以用于解決各種分類(lèi)和回歸問(wèn)題。在社交網(wǎng)絡(luò)和人工智能領(lǐng)域,決策樹(shù)算法被廣泛應(yīng)用于多種場(chǎng)景,例如用戶(hù)行為預(yù)測(cè)、推薦系統(tǒng)、文本分類(lèi)、圖像識(shí)別等。本文將從以下幾個(gè)方面進(jìn)行闡述: 背景介紹 核心概念與聯(lián)系 核心算法原理和

    2024年02月22日
    瀏覽(24)
  • 人工智能在金融投資決策中的應(yīng)用與未來(lái)

    隨著人工智能(AI)技術(shù)的不斷發(fā)展和進(jìn)步,金融領(lǐng)域也逐漸開(kāi)始利用這一技術(shù)來(lái)提高投資決策的效率和準(zhǔn)確性。AI在金融投資決策中的應(yīng)用主要體現(xiàn)在數(shù)據(jù)分析、風(fēng)險(xiǎn)管理、交易策略?xún)?yōu)化等方面。本文將從以下幾個(gè)方面進(jìn)行闡述: 背景介紹 核心概念與聯(lián)系 核心算法原理和具體

    2024年02月20日
    瀏覽(94)
  • 信息熵,信息增益,增益率的理解

    編號(hào) 色澤 根蒂 敲聲 紋理 臍部 觸感 好瓜 1 青綠 蜷縮 濁響 清晰 凹陷 硬滑 是 2 烏黑 蜷縮 沉悶 清晰 凹陷 硬滑 是 3 烏黑 蜷縮 濁響 清晰 凹陷 硬滑 是 4 青綠 蜷縮 沉悶 清晰 凹陷 硬滑 是 5 淺白 蜷縮 濁響 清晰 凹陷 硬滑 是 6 青綠 稍蜷 濁響 清晰 稍凹 軟粘 是 7 烏黑 稍蜷 濁

    2024年02月12日
    瀏覽(49)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包