說(shuō)明:這是一個(gè)機(jī)器學(xué)習(xí)實(shí)戰(zhàn)項(xiàng)目(附帶數(shù)據(jù)+代碼+文檔+視頻講解),如需數(shù)據(jù)+代碼+文檔+視頻講解可以直接到文章最后獲取。
1.項(xiàng)目背景
離散選擇負(fù)二項(xiàng)式模型是一種統(tǒng)計(jì)和經(jīng)濟(jì)計(jì)量模型,它結(jié)合了離散選擇理論與負(fù)二項(xiàng)分布的特點(diǎn)來(lái)分析計(jì)數(shù)型的離散決策變量。在實(shí)際應(yīng)用中,這種模型主要用于處理那些具有“過(guò)度分散”(overdispersion)特性的計(jì)數(shù)數(shù)據(jù),即觀測(cè)到的數(shù)據(jù)方差顯著大于基于某種簡(jiǎn)單概率模型(如泊松回歸模型)所預(yù)測(cè)的方差。
在離散選擇框架下,個(gè)體通常會(huì)從一系列選項(xiàng)中做出決策,每個(gè)選項(xiàng)對(duì)應(yīng)一個(gè)特定的計(jì)數(shù)值(比如消費(fèi)者購(gòu)買產(chǎn)品的數(shù)量、企業(yè)在一定時(shí)期內(nèi)的項(xiàng)目投資次數(shù)等)。負(fù)二項(xiàng)式分布可以靈活地捕捉到不同決策背后的成功或失敗試驗(yàn)次數(shù)以及成功之間的異質(zhì)性,同時(shí)允許因變量的方差獨(dú)立于其期望值而變化。
因此,離散選擇負(fù)二項(xiàng)式模型常用于估計(jì)個(gè)體在不同情境下選擇某一數(shù)量級(jí)別的概率,尤其是在社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)、市場(chǎng)營(yíng)銷等領(lǐng)域,當(dāng)研究對(duì)象是計(jì)數(shù)數(shù)據(jù)且存在過(guò)度離散現(xiàn)象時(shí)。模型參數(shù)通常用來(lái)解釋影響決策的各種因素及其效應(yīng)大小。
本項(xiàng)目通過(guò)NegativeBinomial算法來(lái)構(gòu)建負(fù)二項(xiàng)式模型。 ?
2.數(shù)據(jù)獲取
本次建模數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)(本項(xiàng)目撰寫人整理而成),數(shù)據(jù)項(xiàng)統(tǒng)計(jì)如下:
編號(hào) |
變量名稱 |
描述 |
1 |
x1 |
|
2 |
x2 |
|
3 |
x3 |
|
4 |
x4 |
|
5 |
x5 |
|
6 |
x6 |
|
7 |
x7 |
|
8 |
x8 |
|
9 |
x9 |
|
10 |
x10 |
|
11 |
y |
數(shù)據(jù)詳情如下(部分展示):
3.數(shù)據(jù)預(yù)處理
3.1?用Pandas工具查看數(shù)據(jù)
使用Pandas工具的head()方法查看前五行數(shù)據(jù):?
關(guān)鍵代碼:
3.2 數(shù)據(jù)缺失查看
使用Pandas工具的info()方法查看數(shù)據(jù)信息:
???????
從上圖可以看到,總共有11個(gè)變量,數(shù)據(jù)中無(wú)缺失值,共2000條數(shù)據(jù)。
關(guān)鍵代碼:
3.3?數(shù)據(jù)描述性統(tǒng)計(jì)
通過(guò)Pandas工具的describe()方法來(lái)查看數(shù)據(jù)的平均值、標(biāo)準(zhǔn)差、最小值、分位數(shù)、最大值。
關(guān)鍵代碼如下: ???
4.探索性數(shù)據(jù)分析
4.1?y變量柱狀圖
用Matplotlib工具的plot()方法繪制柱狀圖:
4.2 y=1樣本x1變量分布直方圖
用Matplotlib工具的hist()方法繪制直方圖:
4.3 相關(guān)性分析
從上圖中可以看到,數(shù)值越大相關(guān)性越強(qiáng),正值是正相關(guān)、負(fù)值是負(fù)相關(guān)。??
5.特征工程
5.1 建立特征數(shù)據(jù)和標(biāo)簽數(shù)據(jù)
關(guān)鍵代碼如下:
5.2 數(shù)據(jù)集拆分
通過(guò)train_test_split()方法按照80%訓(xùn)練集、20%測(cè)試集進(jìn)行劃分,關(guān)鍵代碼如下:
6.構(gòu)建負(fù)二項(xiàng)式模型
主要使用NegativeBinomial算法,用于目標(biāo)分類。
6.1?構(gòu)建模型
編號(hào) |
模型名稱 |
參數(shù) |
1 |
負(fù)二項(xiàng)式模型? |
默認(rèn)參數(shù) |
6.2?模型的摘要信息
7.模型評(píng)估
7.1 評(píng)估指標(biāo)及結(jié)果
評(píng)估指標(biāo)主要包括準(zhǔn)確率、查準(zhǔn)率、查全率、F1分值等等。
模型名稱 |
指標(biāo)名稱 |
指標(biāo)值 |
測(cè)試集 | ||
負(fù)二項(xiàng)式模型 |
準(zhǔn)確率 |
0.8075 |
查準(zhǔn)率 |
0.7602 |
|
查全率 |
?0.875 |
|
F1分值 |
0.8136 |
從上表可以看出,F(xiàn)1分值為0.8136,說(shuō)明模型效果較好。?
關(guān)鍵代碼如下:???
7.2 分類報(bào)告
??????
從上圖可以看出,分類為0的F1分值為0.80;分類為1的F1分值為0.81。
7.3 混淆矩陣
從上圖可以看出,實(shí)際為0預(yù)測(cè)不為0的 有53個(gè)樣本;實(shí)際為1預(yù)測(cè)不為1的 有24個(gè)樣本,整體預(yù)測(cè)準(zhǔn)確率良好。 ??文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-812247.html
8.結(jié)論與展望
綜上所述,本文采用了NegativeBinomial算法來(lái)構(gòu)建負(fù)二項(xiàng)式模型,最終證明了我們提出的模型效果良好。此模型可用于日常產(chǎn)品的預(yù)測(cè)。??文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-812247.html
# 本次機(jī)器學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)所需的資料,項(xiàng)目資源如下:
# 項(xiàng)目說(shuō)明:
# 獲取方式一:
# 項(xiàng)目實(shí)戰(zhàn)合集導(dǎo)航:
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
# 獲取方式二:
鏈接:https://pan.baidu.com/s/1MHmxzubKZcmwR4frXgScXg
提取碼:37on
到了這里,關(guān)于Python實(shí)現(xiàn)離散選擇負(fù)二項(xiàng)式模型(NegativeBinomial算法)項(xiàng)目實(shí)戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!