說明:這是一個機(jī)器學(xué)習(xí)實(shí)戰(zhàn)項(xiàng)目(附帶數(shù)據(jù)+代碼+文檔+視頻講解),如需數(shù)據(jù)+代碼+文檔+視頻講解可以直接到文章最后獲取。
1.項(xiàng)目背景
競爭性自適應(yīng)重加權(quán)采樣法(competitive adapative reweighted sampling, CARS)是一種結(jié)合蒙特卡洛采樣與PLS模型回歸系數(shù)的特征變量選擇方法,模仿達(dá)爾文理論中的 ”適者生存“ 的原則(Li et al., 2009)。CARS 算法中,每次通過自適應(yīng)加權(quán)采樣(adapative reweighted sampling, ARS)保留PLS模型中 回歸系數(shù)絕對值權(quán)重較大的點(diǎn)作為新的子集,去掉權(quán)值較小的點(diǎn),然后基于新的子集建立PLS模型,經(jīng)過多次計(jì)算,選擇PLS模型交互驗(yàn)證均方根誤差(RMSECV)最小的子集中的波長作為特征波長。
本項(xiàng)目通過競爭性自適應(yīng)重加權(quán)采樣法進(jìn)行特征選擇來構(gòu)建LightGBM回歸模型。
2.數(shù)據(jù)獲取
本次建模數(shù)據(jù)來源于網(wǎng)絡(luò)(本項(xiàng)目撰寫人整理而成),數(shù)據(jù)項(xiàng)統(tǒng)計(jì)如下:
數(shù)據(jù)詳情如下(部分展示):
3.數(shù)據(jù)預(yù)處理
3.1 用Pandas工具查看數(shù)據(jù)
使用Pandas工具的head()方法查看前五行數(shù)據(jù):
?關(guān)鍵代碼:
3.2 數(shù)據(jù)缺失查看
使用Pandas工具的info()方法查看數(shù)據(jù)信息:
從上圖可以看到,總共有9個變量,數(shù)據(jù)中無缺失值,共1000條數(shù)據(jù)。
關(guān)鍵代碼:
3.3 數(shù)據(jù)描述性統(tǒng)計(jì)
通過Pandas工具的describe()方法來查看數(shù)據(jù)的平均值、標(biāo)準(zhǔn)差、最小值、分位數(shù)、最大值。
關(guān)鍵代碼如下:
4.探索性數(shù)據(jù)分析
4.1 y變量直方圖
用Matplotlib工具的hist()方法繪制直方圖:
從上圖可以看到,y變量主要集中在-400~400之間。 ?
4.2 相關(guān)性分析
從上圖中可以看到,數(shù)值越大相關(guān)性越強(qiáng),正值是正相關(guān)、負(fù)值是負(fù)相關(guān)。
5.特征工程
5.1 建立特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)
關(guān)鍵代碼如下:
5.2 CARS進(jìn)行特征選擇
?
獲取的特征數(shù):
特征選擇后的數(shù)據(jù)進(jìn)行部分展示(數(shù)據(jù)保存到Excel中的):
5.3 數(shù)據(jù)集拆分
通過train_test_split()方法按照80%訓(xùn)練集、20%測試集進(jìn)行劃分,關(guān)鍵代碼如下:
6.構(gòu)建LightGBM回歸模型
主要使用LightGBM回歸算法,用于目標(biāo)回歸。
6.1 構(gòu)建模型
7.模型評估
7.1 評估指標(biāo)及結(jié)果
評估指標(biāo)主要包括可解釋方差值、平均絕對誤差、均方誤差、R方值等等。
?
從上表可以看出,R方0.9076,為模型效果良好。
關(guān)鍵代碼如下:? ?
?7.2 真實(shí)值與預(yù)測值對比圖
?
從上圖可以看出真實(shí)值和預(yù)測值波動基本一致,模型擬合效果良好。 ???
8.結(jié)論與展望
綜上所述,本文采用了競爭性自適應(yīng)重加權(quán)采樣法進(jìn)行特征變量選擇來構(gòu)建LightGBM回歸模型,最終證明了我們提出的模型效果良好。此模型可用于日常產(chǎn)品的預(yù)測。
# 本次機(jī)器學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)所需的資料,項(xiàng)目資源如下:
# 項(xiàng)目說明:
# 鏈接:https://pan.baidu.com/s/1Xcn-VBBA_F4TB3N5rnO2RQ
# 提取碼:bysh
更多項(xiàng)目實(shí)戰(zhàn),詳見機(jī)器學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)合集列表:
機(jī)器學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)合集列表_機(jī)器學(xué)習(xí)實(shí)戰(zhàn)項(xiàng)目_胖哥真不錯的博客-CSDN博客文章來源:http://www.zghlxwxcb.cn/news/detail-786356.html
項(xiàng)目代碼咨詢、獲取,請見下方公眾號。?文章來源地址http://www.zghlxwxcb.cn/news/detail-786356.html
到了這里,關(guān)于Python實(shí)現(xiàn)競爭性自適應(yīng)重加權(quán)采樣法(CARS)進(jìn)行特征變量選擇并構(gòu)建LightGBM回歸模型(LGBMRegressor算法)項(xiàng)目實(shí)戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!