国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機(jī)器學(xué)習(xí)——決策樹/隨機(jī)森林

這篇具有很好參考價值的文章主要介紹了機(jī)器學(xué)習(xí)——決策樹/隨機(jī)森林。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

0、前言:

  • 決策樹可以做分類也可以做回歸,決策樹容易過擬合
  • 決策樹算法的基本原理是依據(jù)信息學(xué)熵的概念設(shè)計的(Logistic回歸和貝葉斯是基于概率論),熵最早起源于物理學(xué),在信息學(xué)當(dāng)中表示不確定性的度量,熵值越大表示不確定性越大。
  • ID3算法就是一種通過熵的變化,構(gòu)造決策樹的算法,其基本公式如下:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
  • ID3算法舉例:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    1、計算信息熵:在target中,總共有10個結(jié)果,其中yes有7個,no有3個,通過信息熵計算公式,得到如下結(jié)果:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    2、計算樣本熵:
    對于特征1:s有3個對應(yīng)比例為0.3(這3個s對應(yīng)的target中yes有1個,no有2個),m有4個對應(yīng)比例為0.4(這4個m對應(yīng)的target中yes有3個,no有1個),l有3個對應(yīng)比例為0.3(這3個l對應(yīng)的target中yes有3個,no有0個),則特征1通過樣本熵的計算公式如下:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    其余兩個特征計算樣本熵的方法和特征一一致。
    3、計算信息增益:通過公式(info(D) - info_D_L)計算出所有樣本的信息增益,然后比較他們的信息增益,選最大的作為第一個決策樹節(jié)點,然后根據(jù)節(jié)點劃分子節(jié)點,如果子節(jié)點信息確定則設(shè)置為葉子節(jié)點,如果子節(jié)點存在不同選擇,就要重新通過上面的步驟選擇新的子節(jié)點。上面計算結(jié)果中特征2的信息增益最大,因此得到如下決策樹,然后繼續(xù)對target和特征1和特征3重復(fù)上面步驟,選擇第二個節(jié)點。
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
  • ID4.5:改進(jìn)了ID3算法中不重復(fù)特征(例如序號列)熵增益過大的缺點,方法就是給每個ID3算法得到的結(jié)果除以對應(yīng)特征的“信息熵”,因此就需要給每個特征通過“信息熵”公式再計算一次它對應(yīng)的信息熵。(info(D) - info_D_L)/E(A)
  • CART算法(gini):改進(jìn)了ID3算法中需要大量對數(shù)運(yùn)算導(dǎo)致運(yùn)算速度較慢的缺點,用基尼代替了熵的概念,核心公式如下,相當(dāng)于用下面的核心公式替代了求信息熵的公式,其余計算過程和ID3算法一致。也是先求target,然后再求其余特征。
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    對數(shù)計算和平方計算對比情況如下:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    計算過程:
    首先求target:
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    再求特征1(特征2、特征3類似)
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    最后求信息增益(特征2、特征3類似):gini_D - gini_D_L

1、決策樹算法參數(shù)說明:

隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林

2、決策樹算法的應(yīng)用:

  • 1、鳶尾花分類任務(wù)(不同參數(shù)值分類結(jié)果)
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
  • 2、sin函數(shù)回歸任務(wù):
# 導(dǎo)包
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor

# 產(chǎn)生數(shù)據(jù)
x = np.linspace(1,5,100)
y = np.sin(x)
# 繪圖
plt.figure(figsize=(10,5))
plt.scatter(x,y,c='r')
# 添加噪點
y[::5]+=np.random.randn(20)*0.1 # 一維數(shù)組的加法
# 繪圖
plt.figure(figsize=(10,5))
plt.scatter(x,y,c='r')
# 轉(zhuǎn)化輸入數(shù)據(jù)維度
x = x.reshape(-1,1)
x.shape
# 預(yù)測
Dt = DecisionTreeRegressor(max_depth=7)
Dt.fit(x,y)
Dt.score(x,y)
# 生成測試數(shù)據(jù)預(yù)測
x_p = np.linspace(3.5,5,100)
x_p = x_p.reshape(-1,1)
x_p.shape
# 預(yù)測繪圖
pre_y = Dt.predict(x)
plt.scatter(x,y,c='r')
plt.scatter(x_p,pre_y,c='b')

隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林文章來源地址http://www.zghlxwxcb.cn/news/detail-733240.html


3、隨機(jī)森林算法:

  • 原理:隨機(jī)森林是決策樹的升級版本,隨機(jī)說的是每個樹都是隨機(jī)生成的,每個數(shù)都不相同。在構(gòu)建隨機(jī)森林時,會從訓(xùn)練數(shù)據(jù)中有放回的隨機(jī)選取一部分樣本,同樣也會隨機(jī)選取數(shù)據(jù)樣本的部分特征進(jìn)行訓(xùn)練。每棵樹使用的樣本和特征都不相同,訓(xùn)練結(jié)果也各不相同。
  • 使用隨機(jī)森林的原因:訓(xùn)練最初我們并不知道哪些是異常樣本,也不知道哪些特征對結(jié)果影響較大,隨機(jī)的過程就能降低這兩個問題的影響,隨機(jī)森林的輸出結(jié)果由投票決定,大部分決策樹的結(jié)果就決定了最終結(jié)果。
  • 優(yōu)點:可以同時訓(xùn)練,不容易過擬合,能處理特征較多的高維數(shù)據(jù),不知道使用什么方法時,先試試隨機(jī)森林。因為隨機(jī)森林屬于多模型組合學(xué)習(xí),這些模型之間都是獨立學(xué)習(xí)預(yù)測的。
  • 導(dǎo)入隨機(jī)森林分類庫:from sklearn.ensemble import RandomForestClassifier
  • 重要參數(shù):
    n_estimators:決策樹的數(shù)量,默認(rèn)是100個

4、總結(jié):

  • 不論是決策樹還是隨機(jī)森林都有一個屬性:feature_importances_,通過這個屬性就可以在模型訓(xùn)練結(jié)束之后看到每個特征的重要性。其他屬性可以通過訓(xùn)練好的模型后面加“.”代碼的自動補(bǔ)全就會顯示。
  • 決策樹當(dāng)中的一些重要參數(shù):
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林
    隨機(jī)森林和決策樹,機(jī)器學(xué)習(xí)與深度學(xué)習(xí),機(jī)器學(xué)習(xí),決策樹,隨機(jī)森林

到了這里,關(guān)于機(jī)器學(xué)習(xí)——決策樹/隨機(jī)森林的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包