国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

2年前作者：腳踏實(shí)地的大夢(mèng)想家分類：Toy博客閱讀(40)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

隨機(jī)森林算法

隨機(jī)森林（Random Forest）算法 是一種集成學(xué)習(xí)（Ensemble Learning）方法，它由多個(gè)決策樹組成，是一種分類、回歸和特征選擇的機(jī)器學(xué)習(xí)算法。

在隨機(jī)森林中，每個(gè)決策樹都是獨(dú)立地訓(xùn)練的，每棵樹的建立都是基于隨機(jī)選取的 特征子集 和隨機(jī)選取的 訓(xùn)練樣本集。

在分類問(wèn)題中，隨機(jī)森林采用投票的方式來(lái)決定最終分類結(jié)果；
在回歸問(wèn)題中，隨機(jī)森林采用平均值的方式來(lái)預(yù)測(cè)結(jié)果。

對(duì)于隨機(jī)森林算法，必須知道的幾個(gè)概念包括：

怎樣選取的特征子集以及訓(xùn)練樣本集；
我們很清楚決策樹如何對(duì)分類值做出分類處理，然而決策樹如何對(duì)連續(xù)值做出的分類處理？

對(duì)于第一個(gè)問(wèn)題，很好回答和理解，所謂特征子集以及訓(xùn)練樣本集，其實(shí)就是為了防止森林中所有的決策樹的訓(xùn)練集一樣，因?yàn)槿绻麤Q策樹的所有訓(xùn)練集一樣，那就沒有意義建造森林了。而抽取的方法有很多，最簡(jiǎn)單就像從口袋中抽球一樣，隨機(jī)抽出放回；將抽出的球構(gòu)成訓(xùn)練樣本集。

而對(duì)于第二個(gè)問(wèn)題，就需要深思熟慮一下，首先需要理解的是：

對(duì)于全都是數(shù)字的訓(xùn)練集數(shù)據(jù)特征值，決策樹在選取劃分特征時(shí)通常會(huì)采用方差（Variance）或均方差（Mean Squared Error）來(lái)衡量特征的重要性，以找到能夠最大化減少樣本方差劃分特征。
對(duì)于全都是分類的訓(xùn)練集數(shù)據(jù)特征，決策樹在選取劃分特征時(shí)通常會(huì)采用信息增益（Information Gain）來(lái)衡量特征的重要性，所謂最大信息增益，即最大化減少熵的選擇。

其次，對(duì)于連續(xù)型特征，如體重、身高等等，采用二分法進(jìn)行劃分。具體來(lái)說(shuō)，通過(guò)在特征值中選擇一個(gè)分裂點(diǎn)，即可以將整個(gè)特征值數(shù)組分為兩類的點(diǎn)，通常分裂點(diǎn)的選擇有兩種策略：

選擇中位數(shù)：一種常見的選擇分裂點(diǎn)的方法是選擇特征值的中位數(shù)作為分裂點(diǎn)。具體來(lái)說(shuō)，可以按照該特征值從小到大進(jìn)行排序，然后選擇中間位置上的值作為分裂點(diǎn)。
選擇平均值：另一種選擇分裂點(diǎn)的方法是選擇特征值的平均值作為分裂點(diǎn)。具體來(lái)說(shuō)，可以計(jì)算該特征值的平均值，并將其作為分裂點(diǎn)。

然后計(jì)算每個(gè)屬性分裂后的哪個(gè)的方差減少值最大，即選擇其作為分類選擇。

下述內(nèi)容將圍繞隨機(jī)森林算法實(shí)現(xiàn)一個(gè)著名的連續(xù)值分類問(wèn)題：即波士頓房?jī)r(jià)預(yù)測(cè)。而實(shí)現(xiàn)分類問(wèn)題，即通過(guò)隨機(jī)森林算法預(yù)測(cè)“鳶尾花”在【機(jī)器學(xué)習(xí)】P24 隨機(jī)森林算法（1）實(shí)現(xiàn) “鳶尾花” 預(yù)測(cè) 中呈現(xiàn)；

隨機(jī)森林算法實(shí)現(xiàn)波士頓房?jī)r(jià)預(yù)測(cè)

波士頓房?jī)r(jià)數(shù)據(jù)與特征：
波士頓房?jī)r(jià)數(shù)據(jù)集是一個(gè)經(jīng)典的回歸問(wèn)題數(shù)據(jù)集，包含了波士頓地區(qū)不同城鎮(zhèn)的房屋價(jià)格及其相關(guān)的屬性數(shù)據(jù)。該數(shù)據(jù)集共有506個(gè)樣本，每個(gè)樣本有13個(gè)屬性，分別是：

CRIM：城鎮(zhèn)人均犯罪率
ZN：占地面積超過(guò)2.5萬(wàn)平方英尺的住宅用地比例
INDUS：城鎮(zhèn)中非零售營(yíng)業(yè)面積的比例
CHAS：查爾斯河虛擬變量（如果是河流，則為1；否則為0）
NOX：一氧化氮濃度（每千萬(wàn)分之一）
RM：每個(gè)住宅的平均房間數(shù)
AGE：1940年以前建造的自有住房的比例
DIS：到波士頓五個(gè)就業(yè)中心的加權(quán)距離
RAD：徑向公路的可達(dá)性指數(shù)
TAX：每10,000美元的全值財(cái)產(chǎn)稅率
PTRATIO：城鎮(zhèn)中的學(xué)生與教師比例
B：黑人的比例（1000（Bk - 0.63）^ 2），其中Bk是城鎮(zhèn)中黑人的比例
LSTAT：人口中地位低下者的比例

下面是通過(guò)pandas展示前十條數(shù)據(jù)的代碼示例：

import pandas as pd

# 加載波士頓房?jī)r(jià)數(shù)據(jù)集
from sklearn.datasets import load_boston
boston = load_boston()

df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['PRICE'] = boston.target
df.insert(0, "Index", df.index+1)

print(df.head(10).to_string(index=False))

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

隨機(jī)森林預(yù)測(cè)波士頓房?jī)r(jià)的操作步驟：

首先導(dǎo)入了需要的庫(kù)和數(shù)據(jù)集；
然后將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集；
接下來(lái)，創(chuàng)建一個(gè)包含10個(gè)決策樹的隨機(jī)森林分類器 n_estimators=10，并使用訓(xùn)練集擬合模型；
需要注意的是，因?yàn)椴ㄊ款D房?jī)r(jià)數(shù)據(jù)是一個(gè)線性回歸數(shù)據(jù)，并非分類數(shù)據(jù)，所以要使用 RandomForestRegressor；
然后使用測(cè)試集預(yù)測(cè)結(jié)果，并計(jì)算模型的均方誤差。

from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加載 boston 數(shù)據(jù)集
boston = load_boston()
X, y = boston.data, boston.target

# 將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 創(chuàng)建隨機(jī)森林回歸器
rf = RandomForestRegressor(n_estimators=10, random_state=42)

# 使用訓(xùn)練集擬合模型
rf.fit(X_train, y_train)

# # # 獲取每個(gè)決策樹的預(yù)測(cè)結(jié)果
tree_predictions = []
for tree in rf.estimators_:
    tree_predictions.append(tree.predict(X_test))

# 預(yù)測(cè)測(cè)試集
y_pred = rf.predict(X_test)

# # # 打印每個(gè)決策樹的前十個(gè)測(cè)試案例的預(yù)測(cè)結(jié)果
for i, tree_prediction in enumerate(tree_predictions):
    print(f"Tree {i} predictions:", tree_prediction[:10])

# # # 打印隨機(jī)森林的前十個(gè)測(cè)試案例的預(yù)測(cè)結(jié)果
print("預(yù)測(cè)結(jié)果為：", y_pred[:10])
print("實(shí)際結(jié)果為：", y_test[:10])

# 計(jì)算模型的均方誤差
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)

【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)

當(dāng)然，最后可通過(guò)輸入十三個(gè)屬性來(lái)獲取預(yù)測(cè)的房?jī)r(jià)：文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-429345.html

# 預(yù)測(cè)房?jī)r(jià)
new_data = [[0.03, 18, 2.31, 0, 0.54, 6.57, 89.8, 2.5052, 1, 296, 15.3, 394.72, 8.23]]  # 新樣本的特征值
predicted_price = rf.predict(new_data)
print("Predicted price:", predicted_price)

到了這里，關(guān)于【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房?jī)r(jià)” 預(yù)測(cè)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【機(jī)器學(xué)習(xí)】python實(shí)現(xiàn)隨機(jī)森林
目錄一、模型介紹 1. 集成學(xué)習(xí) 2. bagging 3. 隨機(jī)森林算法二、隨機(jī)森林算法優(yōu)缺點(diǎn) 三、代碼實(shí)現(xiàn) 四、疑問(wèn) 五、總結(jié) 本文使用mnist數(shù)據(jù)集，進(jìn)行隨機(jī)森林算法。集成學(xué)習(xí)通過(guò)訓(xùn)練學(xué)習(xí)出多個(gè)估計(jì)器，當(dāng)需要預(yù)測(cè)時(shí)通過(guò)結(jié)合器將多個(gè)估計(jì)器的結(jié)果整合起來(lái)當(dāng)作最后的結(jié)果輸出。
2024年02月05日
瀏覽(30)
機(jī)器學(xué)習(xí)算法：線性回歸、邏輯回歸、決策樹和隨機(jī)森林解析
引言機(jī)器學(xué)習(xí)算法是人工智能領(lǐng)域的核心，它們用于解決各種問(wèn)題，從預(yù)測(cè)房?jī)r(jià)到圖像分類。本博客將深入探討四種常見的機(jī)器學(xué)習(xí)算法：線性回歸、邏輯回歸、決策樹和隨機(jī)森林。線性回歸什么是線性回歸？線性回歸是一種用于建立連續(xù)數(shù)值輸出的機(jī)器學(xué)習(xí)模型的算法。
2024年02月10日
瀏覽(77)
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)6-糖尿病疾病的預(yù)測(cè)與分析(隨機(jī)森林算法）
大家好，我是微學(xué)AI，今天給大家介紹一下機(jī)器學(xué)習(xí)實(shí)戰(zhàn)6-糖尿病疾病的預(yù)測(cè)與分析(隨機(jī)森林算法），糖尿病是一種常見的慢性代謝性疾病，由于生活方式及基因等因素的影響，全球范圍內(nèi)糖尿病患者人數(shù)不斷增加。預(yù)測(cè)糖尿病的發(fā)生有助于早期篩查和干預(yù)治療，以降低糖尿
2024年02月04日
瀏覽(23)
七個(gè)常用的機(jī)器學(xué)習(xí)算法詳解：決策樹與隨機(jī)森林的深入解析
hello寶子們...我們是艾斯視覺擅長(zhǎng)ui設(shè)計(jì)和前端開發(fā)10年+經(jīng)驗(yàn)！希望我的分享能幫助到您！如需幫助可以評(píng)論關(guān)注私信我們一起探討！致敬感謝感恩！在機(jī)器學(xué)習(xí)中，決策樹和隨機(jī)森林是兩個(gè)非常常用的算法。它們都屬于監(jiān)督學(xué)習(xí)的范疇，可以用于分類和回歸問(wèn)題。本文將對(duì)
2024年02月19日
瀏覽(27)
【機(jī)器學(xué)習(xí)算法】決策樹和隨機(jī)森林在計(jì)算機(jī)視覺中的應(yīng)用
決策樹和隨機(jī)森林在計(jì)算機(jī)視覺中有著廣泛的應(yīng)用。決策樹作為一種簡(jiǎn)單而強(qiáng)大的分類模型，可以用于圖像分類、目標(biāo)檢測(cè)、特征提取等任務(wù)。它能夠根據(jù)圖像的特征逐層進(jìn)行判斷和分類，從而實(shí)現(xiàn)對(duì)圖像數(shù)據(jù)的智能分析和理解。隨機(jī)森林作為一種集成學(xué)習(xí)方法，利用多棵決
2024年04月13日
瀏覽(26)
python機(jī)器學(xué)習(xí)——分類模型評(píng)估 & 分類算法（k近鄰，樸素貝葉斯，決策樹，隨機(jī)森林，邏輯回歸，svm）
交叉驗(yàn)證：為了讓被評(píng)估的模型更加準(zhǔn)確可信交叉驗(yàn)證：將拿到的數(shù)據(jù)，分為訓(xùn)練和驗(yàn)證集。以下圖為例：將數(shù)據(jù)分成5份，其中一份作為驗(yàn)證集。然后經(jīng)過(guò)5次(組)的測(cè)試，每次都更換不同的驗(yàn)證集。即得到5組模型的結(jié)果，取平均值作為最終結(jié)果。又稱5折交叉驗(yàn)證。通常情
2024年02月03日
瀏覽(31)
【機(jī)器學(xué)習(xí)】R語(yǔ)言實(shí)現(xiàn)隨機(jī)森林、支持向量機(jī)、決策樹多方法二分類模型
暑期簡(jiǎn)單學(xué)習(xí)了機(jī)器學(xué)習(xí)理論知識(shí)，當(dāng)時(shí)跟著B站咕泡老師學(xué)的，內(nèi)容講得蠻詳細(xì)，實(shí)例代碼、資料都比較全面，但是學(xué)校Python課程開設(shè)在這學(xué)期，所以用Python進(jìn)行數(shù)據(jù)分析、建模等不是很熟悉，所以決定用之前學(xué)過(guò)的R語(yǔ)言來(lái)實(shí)現(xiàn)機(jī)器學(xué)習(xí)。R語(yǔ)言的相關(guān)包也都比較完善，所以
2024年02月04日
瀏覽(23)
機(jī)器學(xué)習(xí)算法原理lightgbm、word2vec、cnn、lstm、textcnn、bert、transformer、隨機(jī)森林、lr
首先需要說(shuō)一說(shuō)GBDT，它是一種基于決策樹的集成算法，它使用的集成方法是boosting，其主要思想是通過(guò)多次迭代，每次迭代都學(xué)習(xí)一棵CART樹來(lái)擬合之前 t-1 棵樹的預(yù)測(cè)結(jié)果與訓(xùn)練樣本真實(shí)值的殘差，最終得到一個(gè)準(zhǔn)確度更高的模型。全稱為Gradient Boosting Decision Tree。它是一種
2024年02月13日
瀏覽(19)
17. 機(jī)器學(xué)習(xí) - 隨機(jī)森林
Hi，你好。我是茶桁。我們之前那一節(jié)課講了決策樹，說(shuō)了決策樹的優(yōu)點(diǎn)，也說(shuō)了其缺點(diǎn)。決策樹實(shí)現(xiàn)起來(lái)比較簡(jiǎn)單，解釋解釋性也比較強(qiáng)。但是它唯一的問(wèn)題就是不能擬合比較復(fù)雜的關(guān)系。后來(lái)人們?yōu)榱私鉀Q這個(gè)問(wèn)題，讓其能夠擬合更加復(fù)雜的情況，提出來(lái)了一種模型，
2024年02月05日
瀏覽(34)
【機(jī)器學(xué)習(xí)】隨機(jī)森林
集成學(xué)習(xí)方法通過(guò)建立幾個(gè)模型組合來(lái)解決單一預(yù)測(cè)問(wèn)題。它的工作原理就是生成多個(gè)分類器/模型，各自獨(dú)立地學(xué)習(xí)和做出預(yù)測(cè)。這些預(yù)測(cè)最后結(jié)合成組合預(yù)測(cè)，因此優(yōu)于任何一個(gè)單分類做出的預(yù)測(cè)。在機(jī)器學(xué)習(xí)中，隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器。并且其輸出的
2024年02月05日
瀏覽(24)

<ul id="9kshh"></ul>