国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機(jī)器學(xué)習(xí)入門(mén)實(shí)例-加州房?jī)r(jià)預(yù)測(cè)-4（繼續(xù)調(diào)參+評(píng)估）

2年前作者：陸沙分類(lèi)：Toy博客閱讀(42)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了機(jī)器學(xué)習(xí)入門(mén)實(shí)例-加州房?jī)r(jià)預(yù)測(cè)-4（繼續(xù)調(diào)參+評(píng)估）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

Randomized Search

如果需要嘗試、調(diào)整的超參數(shù)只有有限幾個(gè)，比如之前的例子，那只用grid search就夠了；但如果超參數(shù)的搜索空間非常大，應(yīng)該用RandomizedSearchCV。它有兩個(gè)優(yōu)點(diǎn)：

支持更大的參數(shù)范圍
它可以更快找到最優(yōu)的超參數(shù)組合。因?yàn)椴皇潜闅v所有組合，而是在指定的參數(shù)范圍內(nèi)隨機(jī)采樣，然后評(píng)估性能。
可以根據(jù)現(xiàn)有資源情況給參數(shù)的上下限，因此更靈活。
缺點(diǎn)是可能錯(cuò)過(guò)最優(yōu)，只得到一個(gè)可以接受的“最優(yōu)”。如果時(shí)間允許，還是可以用GridSearch的。

    from sklearn.model_selection import RandomizedSearchCV
    from scipy.stats import randint

    forest_reg = RandomForestRegressor()
    
    # randint(low=1,high=101).rvs(5) 輸出：array([64, 98, 35,  2, 72]) 不要用size控制個(gè)數(shù)了
    param_grid = {
    	# 'n_estimators': list(range(1, 200)),
        'n_estimators': randint(low=1, high=200),
        'max_features': randint(low=1, high=8),
    }
    
    grid_search = RandomizedSearchCV(forest_reg, param_grid, cv=5,
                                     n_iter=20,
                                     scoring="neg_mean_squared_error",
                                     return_train_score=True)
    grid_search.fit(housing_prepared, housing_labels)
    print(grid_search.best_params_)
    print(grid_search.best_estimator_)
    print(np.sqrt(-grid_search.best_score_))

{'max_features': 6, 'n_estimators': 199}
RandomForestRegressor(max_features=6, n_estimators=199)
49012.16057617387

其中n_iter表示嘗試的參數(shù)組合總數(shù)。如果n_iter太小，可能錯(cuò)過(guò)最優(yōu)的超參數(shù)組合；如果n_iter太大，會(huì)增加搜索時(shí)間，消耗更多計(jì)算資源。

評(píng)估模型

查看每一列在預(yù)測(cè)時(shí)的重要性

	param_grid = [
        {'n_estimators': [3, 10, 30, 50], 'max_features': [2, 4, 6, 8, None]},
        {'bootstrap': [False], 'n_estimators': [3, 10, 30], 'max_features': [2, 3, 4, 8]}
    ]
    grid_search = GridSearchCV(forest_reg, param_grid, cv=5,
                               scoring="neg_mean_squared_error",
                               return_train_score=True)

    grid_search.fit(housing_prepared, housing_labels)
    print(grid_search.best_params_)
    print(grid_search.best_estimator_)
    print(np.sqrt(-grid_search.best_score_))
    
    # 獲取列標(biāo)簽
    housing_num = housing.drop("ocean_proximity", axis=1)
    num_attribs = list(housing_num)
    extra_attribs = ["rooms_per_household", "pop_per_household", "bedrooms_per_room"]
    # 獲取每一列在準(zhǔn)確預(yù)測(cè)時(shí)的相對(duì)重要性數(shù)值
    feature_importances = grid_search.best_estimator_.feature_importances_
    # 這里我修改了函數(shù)，多返回了full_pipeline
    # 從pipeline中獲取某個(gè)transformer中輸入的列
    cat_encoder = full_pipeline.named_transformers_['cat']
    cat_one_hot_attribs = list(cat_encoder.categories_[0])
    # 最終列名 = 純數(shù)值列的列名 + 新增的三列列名 + one-hot時(shí)產(chǎn)生的列名
    attributes = num_attribs + extra_attribs + cat_one_hot_attribs
    print(sorted(zip(feature_importances, attributes), reverse=True))

{'bootstrap': False, 'max_features': 8, 'n_estimators': 30}
RandomForestRegressor(bootstrap=False, max_features=8, n_estimators=30)
49442.37738967349
[(0.3250563395483288, 'median_income'), 
(0.1633435907899842, 'INLAND'), 
(0.11059555286375254, 'pop_per_household'), 
(0.08114145071753134, 'longitude'), 
(0.0728049997803568, 'latitude'), 
(0.07264703358828413, 'bedrooms_per_room'), 
(0.06346893798818128, 'rooms_per_household'), 
(0.04130518938735756, 'housing_median_age'), 
(0.014117547726336705, 'total_rooms'), 
(0.01405138434431168, 'population'), 
(0.013966918312688084, 'total_bedrooms'), 
(0.013656643753704638, 'households'), 
(0.009607652315968867, '<1H OCEAN'), 
(0.002484053857680537, 'NEAR OCEAN'), 
(0.001674961006904646, 'NEAR BAY'), 
(7.774401862815335e-05, 'ISLAND')]

知道了重要性后，可以舍棄掉一些不太重要的列，或者調(diào)整不太重要的列，使之更為重要。

在測(cè)試集上評(píng)估

	from sklearn.metrics import mean_squared_error
    # 直接用
    final_model = grid_search.best_estimator_
    # 處理測(cè)試集數(shù)據(jù)
    X_test = test_set.drop("median_house_value", axis=1)
    y_test = test_set["median_house_value"].copy()
	# 使用總pipeline處理數(shù)據(jù)
    X_test_prepared,f = transform_data(X_test)
    # 使用模型預(yù)測(cè)
    final_predictions = final_model.predict(X_test_prepared)
	# 計(jì)算rmse
    final_mse = mean_squared_error(y_test, final_predictions)
    final_rmse = np.sqrt(final_mse)
    print(final_rmse)
    
    # 計(jì)算95%置信區(qū)間
    from scipy import stats
    confidence = 0.95
    squared_errors = (final_predictions - y_test) ** 2
    interval = np.sqrt(stats.t.interval(confidence, len(squared_errors)-1,
                                        loc=squared_errors.mean(),
                                        scale=stats.sem(squared_errors)))
    print(interval)

后續(xù)工作

將模型部署到生產(chǎn)環(huán)境后，隨著新數(shù)據(jù)的加入，模型的準(zhǔn)確率可能會(huì)降低，所以需要監(jiān)控預(yù)測(cè)效果，并且做一些自動(dòng)調(diào)整。可能的工作方向?yàn)椋?span toymoban-style="hidden">文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-416970.html

經(jīng)常收集新數(shù)據(jù)并添加人工標(biāo)簽；
寫(xiě)自動(dòng)訓(xùn)練和調(diào)參的腳本，定期執(zhí)行；
寫(xiě)自動(dòng)比較腳本，在更新的測(cè)試集中比較新模型和老模型的效果，如果效果更好了就更新模型，如果效果更差，需要研究為何變差；
評(píng)估模型輸入數(shù)據(jù)的質(zhì)量；
備份每個(gè)模型和一些數(shù)據(jù)集，確保可以快速回滾

到了這里，關(guān)于機(jī)器學(xué)習(xí)入門(mén)實(shí)例-加州房?jī)r(jià)預(yù)測(cè)-4（繼續(xù)調(diào)參+評(píng)估）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

機(jī)器學(xué)習(xí)之利用線性回歸預(yù)測(cè)波士頓房?jī)r(jià)和可視化分析影響房?jī)r(jià)因素實(shí)戰(zhàn)（python實(shí)現(xiàn) 附源碼超詳細(xì)）
數(shù)據(jù)集和源碼請(qǐng)點(diǎn)贊關(guān)注收藏后評(píng)論區(qū)留下QQ郵箱或者私信線性回歸是利用最小二乘函數(shù)對(duì)一個(gè)或多個(gè)因變量之間關(guān)系進(jìn)行建模的一種回歸分析，這種函數(shù)是一個(gè)或多個(gè)稱(chēng)為回歸系數(shù)的模型參數(shù)的線性組合。只有一個(gè)變量的稱(chēng)為一元回歸，大于一個(gè)變量的情況叫做多元回歸。
2024年01月21日
瀏覽(28)
【機(jī)器學(xué)習(xí)】最經(jīng)典案例：房?jī)r(jià)預(yù)測(cè)（完整流程：數(shù)據(jù)分析及處理、模型選擇及微調(diào)）
環(huán)境：anaconda+jupyter notebook 首先要明白一點(diǎn)：數(shù)據(jù)決定模型的上限！數(shù)據(jù)決定模型的上限！數(shù)據(jù)決定模型的上限！（重要的事情說(shuō)三遍。）對(duì)于數(shù)據(jù)的處理在一個(gè)完整案例中花費(fèi)精力的比重應(yīng)該占到一半以上。以下分為：數(shù)據(jù)分析、數(shù)據(jù)清洗兩部分。數(shù)據(jù)分析主要包括：查
2024年02月05日
瀏覽(27)
機(jī)器學(xué)習(xí)---使用 TensorFlow 構(gòu)建神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)波士頓房?jī)r(jià)和鳶尾花數(shù)據(jù)集分類(lèi)
1. 預(yù)測(cè)波士頓房?jī)r(jià) 1.1 導(dǎo)包最后一行設(shè)置了TensorFlow日志的詳細(xì)程度： tf.logging.DEBUG ：最詳細(xì)的日志級(jí)別，用于記錄調(diào)試信息。 tf.logging.INFO ：用于記錄一般的信息性消息，比如訓(xùn)練過(guò)程中的指標(biāo)和進(jìn)度。 tf.logging.WARN ：用于記錄警告消息，表示可能存在潛在問(wèn)題，但不會(huì)導(dǎo)致
2024年02月08日
瀏覽(24)
機(jī)器學(xué)習(xí)與深度學(xué)習(xí)——使用paddle實(shí)現(xiàn)隨機(jī)梯度下降算法SGD對(duì)波士頓房?jī)r(jià)數(shù)據(jù)進(jìn)行線性回歸和預(yù)測(cè)
隨機(jī)梯度下降（SGD）也稱(chēng)為增量梯度下降，是一種迭代方法，用于優(yōu)化可微分目標(biāo)函數(shù)。該方法通過(guò)在小批量數(shù)據(jù)上計(jì)算損失函數(shù)的梯度而迭代地更新權(quán)重與偏置項(xiàng)。SGD在高度非凸的損失表面上遠(yuǎn)遠(yuǎn)超越了樸素梯度下降法，這種簡(jiǎn)單的爬山法技術(shù)已經(jīng)主導(dǎo)了現(xiàn)代的非凸優(yōu)化。
2024年02月03日
瀏覽(32)
【Python機(jī)器學(xué)習(xí)】決策樹(shù)、K近鄰、神經(jīng)網(wǎng)絡(luò)等模型對(duì)Kaggle房?jī)r(jià)預(yù)測(cè)實(shí)戰(zhàn)（附源碼和數(shù)據(jù)集）
需要源碼和數(shù)據(jù)集請(qǐng)點(diǎn)贊關(guān)注收藏后評(píng)論區(qū)留言私信~~~ 超參數(shù)調(diào)優(yōu)需要依靠試驗(yàn)的方法，以及人的經(jīng)驗(yàn)。對(duì)算法本身的理解越深入，對(duì)實(shí)現(xiàn)算法的過(guò)程了解越詳細(xì)，積累了越多的調(diào)優(yōu)經(jīng)驗(yàn)，就越能夠快速準(zhǔn)確地找到最合適的超參數(shù) 試驗(yàn)的方法，就是設(shè)置了一系列超參數(shù)之后
2024年02月03日
瀏覽(25)
數(shù)據(jù)分析（以kaggle上的加州房?jī)r(jià)為例）
數(shù)據(jù)來(lái)源：House Prices - Advanced Regression Techniques 參考文獻(xiàn)： Comprehensive data exploration with Python 偏度（Skewness）是一種衡量隨機(jī)變量概率分布的偏斜方向和程度的度量，是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱(chēng)程度的數(shù)字特征。偏度可以用來(lái)反映數(shù)據(jù)分布相對(duì)于對(duì)稱(chēng)分布的偏斜程度。偏度的取值范
2024年02月09日
瀏覽(19)
機(jī)器學(xué)習(xí)之支持向量回歸（SVR）預(yù)測(cè)房?jī)r(jià)—基于python
? ? ? 大家好，我是帶我去滑雪！ ? ? ? 本期使用爬取到的有關(guān)房?jī)r(jià)數(shù)據(jù)集data.csv，使用支持向量回歸（SVR）方法預(yù)測(cè)房?jī)r(jià)。該數(shù)據(jù)集中“y1”為響應(yīng)變量，為房屋總價(jià)，而x1-x9為特征變量，依次表示房屋的臥室數(shù)量、客廳數(shù)量、面積、裝修情況、有無(wú)電梯、、房屋所在樓層位
2024年02月04日
瀏覽(29)
python 導(dǎo)入fetch_california_housing 加州房?jī)r(jià)數(shù)據(jù)集報(bào)錯(cuò)解決
1 導(dǎo)入加州房?jī)r(jià)數(shù)據(jù)集顯示 HTTP Error 403：Forbidden 2 處理方法? ①手工下載數(shù)據(jù)集? 打開(kāi)_california_housing.py 文件，里面有數(shù)據(jù)集的下載地址，不知道_california_housing.py文件地址的可以看報(bào)錯(cuò)中提示的位置 ?_california_housing.py文件中43行，有數(shù)據(jù)集的下載地址（https://www.dcc.fc.up.pt/~l
2024年02月07日
瀏覽(26)
數(shù)據(jù)挖掘入門(mén)項(xiàng)目二手交易車(chē)價(jià)格預(yù)測(cè)之建模調(diào)參
本文數(shù)據(jù)集來(lái)自阿里天池：https://tianchi.aliyun.com/competition/entrance/231784/information 主要參考了Datawhale的整個(gè)操作流程：https://tianchi.aliyun.com/notebook/95460 小編也是第一次接觸數(shù)據(jù)挖掘，所以先跟著Datawhale寫(xiě)的教程操作了一遍，不懂的地方加了一點(diǎn)點(diǎn)自己的理解，感謝Datawhale！了解
2024年04月11日
瀏覽(24)
機(jī)器學(xué)習(xí)之線性回歸與邏輯回歸【完整房?jī)r(jià)預(yù)測(cè)和鳶尾花分類(lèi)代碼解釋】
目錄前言一、什么是線性回歸二、什么是邏輯回歸三、基于Python 和 Scikit-learn 庫(kù)實(shí)現(xiàn)線性回歸示例代碼： ?使用線性回歸來(lái)預(yù)測(cè)房?jī)r(jià): 四、基于Python 和 Scikit-learn 庫(kù)實(shí)現(xiàn)邏輯回歸五、總結(jié)? 線性回歸的優(yōu)缺點(diǎn)總結(jié)：邏輯回歸（Logistic Regression）是一種常用的分類(lèi)算法，具有
2024年04月13日
瀏覽(33)