国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法(2) 實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

這篇具有很好參考價(jià)值的文章主要介紹了【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法(2) 實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

隨機(jī)森林算法

隨機(jī)森林(Random Forest)算法 是一種 集成學(xué)習(xí)(Ensemble Learning)方法,它由多個(gè)決策樹組成,是一種分類、回歸和特征選擇的機(jī)器學(xué)習(xí)算法。

在隨機(jī)森林中,每個(gè)決策樹都是獨(dú)立地訓(xùn)練的,每棵樹的建立都是基于隨機(jī)選取的 特征子集 和隨機(jī)選取的 訓(xùn)練樣本集

  • 在分類問(wèn)題中,隨機(jī)森林采用投票的方式來(lái)決定最終分類結(jié)果;
  • 在回歸問(wèn)題中,隨機(jī)森林采用平均值的方式來(lái)預(yù)測(cè)結(jié)果。

對(duì)于隨機(jī)森林算法,必須知道的幾個(gè)概念包括:

  1. 怎樣選取的特征子集以及訓(xùn)練樣本集;
  2. 我們很清楚決策樹如何對(duì)分類值做出分類處理,然而決策樹如何對(duì)連續(xù)值做出的分類處理?

對(duì)于第一個(gè)問(wèn)題,很好回答和理解,所謂特征子集以及訓(xùn)練樣本集,其實(shí)就是為了防止森林中所有的決策樹的訓(xùn)練集一樣,因?yàn)槿绻麤Q策樹的所有訓(xùn)練集一樣,那就沒有意義建造森林了。而抽取的方法有很多,最簡(jiǎn)單就像從口袋中抽球一樣,隨機(jī)抽出放回;將抽出的球構(gòu)成訓(xùn)練樣本集。

而對(duì)于第二個(gè)問(wèn)題,就需要深思熟慮一下,首先需要理解的是:

  • 對(duì)于全都是數(shù)字的訓(xùn)練集數(shù)據(jù)特征值,決策樹在選取劃分特征時(shí)通常會(huì)采用方差(Variance)或均方差(Mean Squared Error)來(lái)衡量特征的重要性,以找到能夠最大化減少樣本方差劃分特征。

  • 對(duì)于全都是分類的訓(xùn)練集數(shù)據(jù)特征,決策樹在選取劃分特征時(shí)通常會(huì)采用信息增益(Information Gain)來(lái)衡量特征的重要性,所謂最大信息增益,即最大化減少熵的選擇。

其次,對(duì)于連續(xù)型特征,如體重、身高等等,采用二分法進(jìn)行劃分。具體來(lái)說(shuō),通過(guò)在特征值中選擇一個(gè)分裂點(diǎn),即可以將整個(gè)特征值數(shù)組分為兩類的點(diǎn),通常分裂點(diǎn)的選擇有兩種策略:

  1. 選擇中位數(shù):一種常見的選擇分裂點(diǎn)的方法是選擇特征值的中位數(shù)作為分裂點(diǎn)。具體來(lái)說(shuō),可以按照該特征值從小到大進(jìn)行排序,然后選擇中間位置上的值作為分裂點(diǎn)。
  2. 選擇平均值:另一種選擇分裂點(diǎn)的方法是選擇特征值的平均值作為分裂點(diǎn)。具體來(lái)說(shuō),可以計(jì)算該特征值的平均值,并將其作為分裂點(diǎn)。

然后計(jì)算每個(gè)屬性分裂后的哪個(gè)的方差減少值最大,即選擇其作為分類選擇。

下述內(nèi)容將圍繞隨機(jī)森林算法實(shí)現(xiàn)一個(gè)著名的連續(xù)值分類問(wèn)題:即波士頓房?jī)r(jià)預(yù)測(cè)。而實(shí)現(xiàn)分類問(wèn)題,即通過(guò)隨機(jī)森林算法預(yù)測(cè)“鳶尾花”在【機(jī)器學(xué)習(xí)】P24 隨機(jī)森林算法(1) 實(shí)現(xiàn) “鳶尾花” 預(yù)測(cè) 中呈現(xiàn);


隨機(jī)森林算法實(shí)現(xiàn)波士頓房?jī)r(jià)預(yù)測(cè)

波士頓房?jī)r(jià)數(shù)據(jù)與特征:
波士頓房?jī)r(jià)數(shù)據(jù)集是一個(gè)經(jīng)典的回歸問(wèn)題數(shù)據(jù)集,包含了波士頓地區(qū)不同城鎮(zhèn)的房屋價(jià)格及其相關(guān)的屬性數(shù)據(jù)。該數(shù)據(jù)集共有506個(gè)樣本,每個(gè)樣本有13個(gè)屬性,分別是:

  • CRIM:城鎮(zhèn)人均犯罪率
  • ZN:占地面積超過(guò)2.5萬(wàn)平方英尺的住宅用地比例
  • INDUS:城鎮(zhèn)中非零售營(yíng)業(yè)面積的比例
  • CHAS:查爾斯河虛擬變量(如果是河流,則為1;否則為0)
  • NOX:一氧化氮濃度(每千萬(wàn)分之一)
  • RM:每個(gè)住宅的平均房間數(shù)
  • AGE:1940年以前建造的自有住房的比例
  • DIS:到波士頓五個(gè)就業(yè)中心的加權(quán)距離
  • RAD:徑向公路的可達(dá)性指數(shù)
  • TAX:每10,000美元的全值財(cái)產(chǎn)稅率
  • PTRATIO:城鎮(zhèn)中的學(xué)生與教師比例
  • B:黑人的比例(1000(Bk - 0.63)^ 2),其中Bk是城鎮(zhèn)中黑人的比例
  • LSTAT:人口中地位低下者的比例

下面是通過(guò)pandas展示前十條數(shù)據(jù)的代碼示例:

import pandas as pd

# 加載波士頓房?jī)r(jià)數(shù)據(jù)集
from sklearn.datasets import load_boston
boston = load_boston()

df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target
df.insert(0, "Index", df.index+1)

print(df.head(10).to_string(index=False))

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法(2) 實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

隨機(jī)森林預(yù)測(cè)波士頓房?jī)r(jià)的操作步驟:

  • 首先導(dǎo)入了需要的庫(kù)和數(shù)據(jù)集;
  • 然后將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集;
  • 接下來(lái),創(chuàng)建一個(gè)包含10個(gè)決策樹的隨機(jī)森林分類器 n_estimators=10,并使用訓(xùn)練集擬合模型;
  • 需要注意的是,因?yàn)椴ㄊ款D房?jī)r(jià)數(shù)據(jù)是一個(gè)線性回歸數(shù)據(jù),并非分類數(shù)據(jù),所以要使用 RandomForestRegressor;
  • 然后使用測(cè)試集預(yù)測(cè)結(jié)果,并計(jì)算模型的均方誤差。
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加載 boston 數(shù)據(jù)集
boston = load_boston()
X, y = boston.data, boston.target

# 將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 創(chuàng)建隨機(jī)森林回歸器
rf = RandomForestRegressor(n_estimators=10, random_state=42)

# 使用訓(xùn)練集擬合模型
rf.fit(X_train, y_train)

# # # 獲取每個(gè)決策樹的預(yù)測(cè)結(jié)果
tree_predictions = []
for tree in rf.estimators_:
    tree_predictions.append(tree.predict(X_test))

# 預(yù)測(cè)測(cè)試集
y_pred = rf.predict(X_test)

# # # 打印每個(gè)決策樹的前十個(gè)測(cè)試案例的預(yù)測(cè)結(jié)果
for i, tree_prediction in enumerate(tree_predictions):
    print(f"Tree {i} predictions:", tree_prediction[:10])

# # # 打印隨機(jī)森林的前十個(gè)測(cè)試案例的預(yù)測(cè)結(jié)果
print("預(yù)測(cè)結(jié)果為:", y_pred[:10])
print("實(shí)際結(jié)果為:", y_test[:10])

# 計(jì)算模型的均方誤差
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法(2) 實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

當(dāng)然,最后可通過(guò)輸入十三個(gè)屬性來(lái)獲取預(yù)測(cè)的房?jī)r(jià):文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-429345.html

# 預(yù)測(cè)房?jī)r(jià)
new_data = [[0.03, 18, 2.31, 0, 0.54, 6.57, 89.8, 2.5052, 1, 296, 15.3, 394.72, 8.23]]  # 新樣本的特征值
predicted_price = rf.predict(new_data)
print("Predicted price:", predicted_price)

到了這里,關(guān)于【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法(2) 實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【機(jī)器學(xué)習(xí)】python實(shí)現(xiàn)隨機(jī)森林

    【機(jī)器學(xué)習(xí)】python實(shí)現(xiàn)隨機(jī)森林

    目錄 一、模型介紹 1. 集成學(xué)習(xí) 2. bagging 3. 隨機(jī)森林算法 二、隨機(jī)森林算法優(yōu)缺點(diǎn) 三、代碼實(shí)現(xiàn) 四、疑問(wèn) 五、總結(jié) 本文使用mnist數(shù)據(jù)集,進(jìn)行隨機(jī)森林算法。 集成學(xué)習(xí)通過(guò)訓(xùn)練學(xué)習(xí)出多個(gè)估計(jì)器,當(dāng)需要預(yù)測(cè)時(shí)通過(guò)結(jié)合器將多個(gè)估計(jì)器的結(jié)果整合起來(lái)當(dāng)作最后的結(jié)果輸出。

    2024年02月05日
    瀏覽(30)
  • 機(jī)器學(xué)習(xí)算法:線性回歸、邏輯回歸、決策樹和隨機(jī)森林解析

    引言 機(jī)器學(xué)習(xí)算法是人工智能領(lǐng)域的核心,它們用于解決各種問(wèn)題,從預(yù)測(cè)房?jī)r(jià)到圖像分類。本博客將深入探討四種常見的機(jī)器學(xué)習(xí)算法:線性回歸、邏輯回歸、決策樹和隨機(jī)森林。 線性回歸 什么是線性回歸? 線性回歸是一種用于建立連續(xù)數(shù)值輸出的機(jī)器學(xué)習(xí)模型的算法。

    2024年02月10日
    瀏覽(77)
  • 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)6-糖尿病疾病的預(yù)測(cè)與分析(隨機(jī)森林算法)

    大家好,我是微學(xué)AI,今天給大家介紹一下機(jī)器學(xué)習(xí)實(shí)戰(zhàn)6-糖尿病疾病的預(yù)測(cè)與分析(隨機(jī)森林算法),糖尿病是一種常見的慢性代謝性疾病,由于生活方式及基因等因素的影響,全球范圍內(nèi)糖尿病患者人數(shù)不斷增加。預(yù)測(cè)糖尿病的發(fā)生有助于早期篩查和干預(yù)治療,以降低糖尿

    2024年02月04日
    瀏覽(23)
  • 七個(gè)常用的機(jī)器學(xué)習(xí)算法詳解:決策樹與隨機(jī)森林的深入解析

    七個(gè)常用的機(jī)器學(xué)習(xí)算法詳解:決策樹與隨機(jī)森林的深入解析

    hello寶子們...我們是艾斯視覺擅長(zhǎng)ui設(shè)計(jì)和前端開發(fā)10年+經(jīng)驗(yàn)!希望我的分享能幫助到您!如需幫助可以評(píng)論關(guān)注私信我們一起探討!致敬感謝感恩! 在機(jī)器學(xué)習(xí)中,決策樹和隨機(jī)森林是兩個(gè)非常常用的算法。它們都屬于監(jiān)督學(xué)習(xí)的范疇,可以用于分類和回歸問(wèn)題。本文將對(duì)

    2024年02月19日
    瀏覽(27)
  • 【機(jī)器學(xué)習(xí)算法】決策樹和隨機(jī)森林在計(jì)算機(jī)視覺中的應(yīng)用

    【機(jī)器學(xué)習(xí)算法】決策樹和隨機(jī)森林在計(jì)算機(jī)視覺中的應(yīng)用

    決策樹和隨機(jī)森林在計(jì)算機(jī)視覺中有著廣泛的應(yīng)用。決策樹作為一種簡(jiǎn)單而強(qiáng)大的分類模型,可以用于圖像分類、目標(biāo)檢測(cè)、特征提取等任務(wù)。它能夠根據(jù)圖像的特征逐層進(jìn)行判斷和分類,從而實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的智能分析和理解。隨機(jī)森林作為一種集成學(xué)習(xí)方法,利用多棵決

    2024年04月13日
    瀏覽(26)
  • python機(jī)器學(xué)習(xí)——分類模型評(píng)估 & 分類算法(k近鄰,樸素貝葉斯,決策樹,隨機(jī)森林,邏輯回歸,svm)

    python機(jī)器學(xué)習(xí)——分類模型評(píng)估 & 分類算法(k近鄰,樸素貝葉斯,決策樹,隨機(jī)森林,邏輯回歸,svm)

    交叉驗(yàn)證:為了讓被評(píng)估的模型更加準(zhǔn)確可信 交叉驗(yàn)證:將拿到的數(shù)據(jù),分為訓(xùn)練和驗(yàn)證集。以下圖為例:將數(shù)據(jù)分成5份,其中一份作為驗(yàn)證集。然后經(jīng)過(guò)5次(組)的測(cè)試,每次都更換不同的驗(yàn)證集。即得到5組模型的結(jié)果,取平均值作為最終結(jié)果。又稱5折交叉驗(yàn)證。 通常情

    2024年02月03日
    瀏覽(31)
  • 【機(jī)器學(xué)習(xí)】R語(yǔ)言實(shí)現(xiàn)隨機(jī)森林、支持向量機(jī)、決策樹多方法二分類模型

    【機(jī)器學(xué)習(xí)】R語(yǔ)言實(shí)現(xiàn)隨機(jī)森林、支持向量機(jī)、決策樹多方法二分類模型

    暑期簡(jiǎn)單學(xué)習(xí)了機(jī)器學(xué)習(xí)理論知識(shí),當(dāng)時(shí)跟著B站咕泡老師學(xué)的,內(nèi)容講得蠻詳細(xì),實(shí)例代碼、資料都比較全面,但是學(xué)校Python課程開設(shè)在這學(xué)期,所以用Python進(jìn)行數(shù)據(jù)分析、建模等不是很熟悉,所以決定用之前學(xué)過(guò)的R語(yǔ)言來(lái)實(shí)現(xiàn)機(jī)器學(xué)習(xí)。R語(yǔ)言的相關(guān)包也都比較完善,所以

    2024年02月04日
    瀏覽(23)
  • 機(jī)器學(xué)習(xí)算法原理lightgbm、word2vec、cnn、lstm、textcnn、bert、transformer、隨機(jī)森林、lr

    首先需要說(shuō)一說(shuō)GBDT,它是一種基于決策樹的集成算法,它使用的集成方法是boosting,其主要思想是通過(guò)多次迭代,每次迭代都學(xué)習(xí)一棵CART樹來(lái)擬合之前 t-1 棵樹的預(yù)測(cè)結(jié)果與訓(xùn)練樣本真實(shí)值的殘差,最終得到一個(gè)準(zhǔn)確度更高的模型。 全稱為Gradient Boosting Decision Tree。它是一種

    2024年02月13日
    瀏覽(19)
  • 17. 機(jī)器學(xué)習(xí) - 隨機(jī)森林

    17. 機(jī)器學(xué)習(xí) - 隨機(jī)森林

    Hi,你好。我是茶桁。 我們之前那一節(jié)課講了決策樹,說(shuō)了決策樹的優(yōu)點(diǎn),也說(shuō)了其缺點(diǎn)。 決策樹實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單,解釋解釋性也比較強(qiáng)。但是它唯一的問(wèn)題就是不能擬合比較復(fù)雜的關(guān)系。 后來(lái)人們?yōu)榱私鉀Q這個(gè)問(wèn)題,讓其能夠擬合更加復(fù)雜的情況,提出來(lái)了一種模型,

    2024年02月05日
    瀏覽(34)
  • 【機(jī)器學(xué)習(xí)】隨機(jī)森林

    集成學(xué)習(xí)方法通過(guò)建立幾個(gè)模型組合來(lái)解決單一預(yù)測(cè)問(wèn)題。它的工作原理就是生成多個(gè)分類器/模型,各自獨(dú)立地學(xué)習(xí)和做出預(yù)測(cè)。這些預(yù)測(cè)最后結(jié)合成組合預(yù)測(cè),因此優(yōu)于任何一個(gè)單分類做出的預(yù)測(cè)。 在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器。并且其輸出的

    2024年02月05日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包