国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strong id="y3tej"><form id="y3tej"></form></strong>

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...

1年前作者：拓端研究室TRL分類：Toy博客閱讀(21)違法舉報

這篇具有很好參考價值的文章主要介紹了數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

完整報告鏈接：http://tecdat.cn/?p=28579

作者：Nuo Liu

數(shù)據(jù)變得越來越重要，其核心應(yīng)用“預(yù)測”也成為互聯(lián)網(wǎng)行業(yè)以及產(chǎn)業(yè)變革的重要力量。近年來網(wǎng)絡(luò) P2P借貸發(fā)展形勢迅猛，一方面普通用戶可以更加靈活、便快捷地獲得中小額度的貸款，另一方面由于相當(dāng)多數(shù)量用戶出現(xiàn)違約問題而給 P2P信貸平臺以及借貸雙方帶來諸多糾紛，因此根據(jù)用戶歷史款情況準(zhǔn)確預(yù)測潛在是否還會發(fā)生違約就非常有必要（點擊文末“閱讀原文”獲取完整報告數(shù)據(jù)）。

相關(guān)視頻

解決方案

任務(wù)/目標(biāo)

對于用戶貸款數(shù)據(jù)（查看文末了解數(shù)據(jù)免費獲取方式）是否違約的預(yù)測，結(jié)果解釋。

數(shù)據(jù)源準(zhǔn)備

刪除屬性

刪除數(shù)據(jù)集中與建立決策樹無關(guān)的屬性IDX、Listinginfo，此類屬性作為用戶標(biāo)記/日期標(biāo)記作用，與借款人信貸違約明顯無關(guān)。

刪除數(shù)據(jù)集中distinct為1的屬性webloginfo\_10、Education\_info7、webloginfo_49，此類屬性僅存在同一個數(shù)值，對分類結(jié)果無影響。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

webloginfo_10屬性描述，其他屬性類似

缺失值處理

缺失值情況如下表，按缺失值比例由大到小排列

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

對于屬性webloginfo\_3、webloginfo\_1，由于缺失值比例過大，直接刪除兩屬性。操作步驟為預(yù)處理界面勾選兩屬性，點擊Remove。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

對于屬性Userinfo\_21、Userinfo\_22、Userinfo\_23、Education\_info8、webloginfo\_23-48、Userinfo\_4，由于缺失值比例較小，不足1%。webloginfo\_2、webloginfo\_4、webloginfo\_5、webloginfo\_6缺失值比例為5%。因此直接刪除缺失值對應(yīng)instance，以刪除Userinfo_21中的缺失值為例，操作步驟如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

刪除后，剩余19200條實例如下，數(shù)據(jù)集損失的實例數(shù)不足5%，認(rèn)為對后續(xù)決策樹建立沒有影響。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

對于其他缺失值屬性，若為Numeric屬性，用平均值代替缺失值，若為Nominal屬性，用它的眾數(shù)來代替缺失值。選擇 weka中“ReplaceMissingValues"過濾器進行實現(xiàn)

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

處理后檢查不存在缺失值，至此缺失值處理完成。

Numeric?屬性離散化處理

使用“NumerictoNominal”過濾器實現(xiàn)Numeric屬性的離散化，為方便處理使用MultiFilter對所有Numeric屬性進行操作。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

處理后如圖，所有Numeric屬性均已變?yōu)镹ominal屬性。

特征轉(zhuǎn)換

特征理解

該數(shù)據(jù)集數(shù)據(jù)來源于中國一家著名的P2P公司的借款記錄。數(shù)據(jù)集中包括借款人的ID、日期、借款人特征（地點、婚姻狀態(tài)等信息）、網(wǎng)絡(luò)行為、學(xué)歷以及第三方數(shù)據(jù)等全面信息。

Weblog Info_:Info網(wǎng)絡(luò)行為字段描述使用網(wǎng)絡(luò)次數(shù)多少，:使用第三方數(shù)據(jù)時間N字段描述第三方數(shù)據(jù)時間長短。觀察發(fā)現(xiàn)ThirdParty_ Info\_PeriodN\_屬性數(shù)據(jù)不同維度上的特征的尺度不一致，需要進行標(biāo)準(zhǔn)化處理

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

特征提升

按照第一次方法，對數(shù)據(jù)集進行缺失值刪補，步驟省略。

將ThirdParty字段屬性標(biāo)準(zhǔn)化，在預(yù)處理界面選用unsupervised. attribute. Standardize，標(biāo)準(zhǔn)化給定數(shù)據(jù)集中所有數(shù)值屬性的值到一個0均值和單位方差的正態(tài)分布。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

特征選擇

原數(shù)據(jù)集包含屬性較多，為方便后續(xù)操作先對數(shù)據(jù)集進行特征選擇處理。

刪除數(shù)據(jù)集中與建立決策樹無關(guān)的屬性IDX、Listinginfo，此類屬性作為用戶標(biāo)記/日期標(biāo)記作用，與借款人信貸違約明顯無關(guān)。刪除數(shù)據(jù)集中distinct為1的屬性webloginfo\_10、Education\_info7、webloginfo_49，此類屬性僅存在同一個數(shù)值，對分類結(jié)果無影響。

在預(yù)處理界面選擇AttributeSelection過濾器，選擇CfsSubsetEval評估器，選擇BestFirst 搜索方法。最終得到除target之外的74個屬性。

特征降維

由于ThirdParty_ Info\_PeriodN\_為使用第三方數(shù)據(jù)時間N字段，描述不同階段使用時間長短，WeblogInfo字段為使用網(wǎng)絡(luò)次數(shù)。根據(jù)意義判斷，同時包含同類別不同階段數(shù)據(jù)不太合理，因此運用主成分分析方法將ThirdParty_ Info\_PeriodN\_屬性合并成為一個綜合指標(biāo)，選擇排名第一的屬性命名為ThirdParty屬性，替換原數(shù)據(jù)集中所有ThirdParty_ Info\_PeriodN\_*變量。同理對WeblogInfo字段使用主成分分析方法進行合并與替換。

以WeblogInfo降維為例，設(shè)置提取5個維度作為主成分，排序后得到第一條屬性的個體評價最高達到0.9388，保留第一條屬性，導(dǎo)出引入數(shù)據(jù)集，命名為WeblogInfo。ThirdParty字段同理。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

特征構(gòu)造

經(jīng)過選擇后包含的屬性中，User2、4、6、7、18、19均為地點屬性，且包含300余條distinct，對決策樹造成干擾。而其中User6、7；User18、19分別為同一地點的省份與城市名稱，存在信息冗余，因此首先對這幾類地點屬性進行處理。

再抽樣與離散化

對類屬性target進行離散化，過程省略
第一次處理時并沒有對target之外的Numeric屬性進行離散化處理，導(dǎo)致決策樹同一個屬性在多個節(jié)點出現(xiàn)。因此為降低樹深度，對其他Numeric屬性進行離散化處理。首先觀察user16、Education1、Education5、Movement屬性為布爾變量。Socialwork7屬性只包含-1，0，1三個值，將以上屬性直接轉(zhuǎn)換為Nominal屬性。

其次對其他數(shù)值型屬性進行離散化。在預(yù)處理界面選擇Discretize，根據(jù)第一次作業(yè)結(jié)果判斷，設(shè)置bins為3，分類區(qū)間取小數(shù)點后兩位。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

再抽樣。target屬性中發(fā)現(xiàn)Lable為1（即存在違約風(fēng)險）的頻數(shù)較小。為防止進行分類建模時學(xué)習(xí)不到小類特征，運用SMOTE包增加小類數(shù)量，加大小類比例，以便后續(xù)機器學(xué)習(xí)。設(shè)置參數(shù)percentage為800%，實例數(shù)量擴大為原來的8倍。為防止抽樣范圍過小造成數(shù)據(jù)與原數(shù)據(jù)比例失衡，設(shè)置nearestNeighbors為100.

運行后如圖所示，實例數(shù)量增加到33320條。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

至此預(yù)處理完畢，對訓(xùn)練集與測試集進行同樣處理，為避免測試集與訓(xùn)練集不匹配問題，用記事本打開測試集.arff文件修改表頭至與訓(xùn)練集一致。

建模和模型優(yōu)化

隨機森林

Weka操作

打開預(yù)處理后的訓(xùn)練集，在classifier模塊中選擇CVParameterSelection，并選擇RandomForest決策分類樹算法，尋找最佳參數(shù)。

在經(jīng)過處理后的測試集上進行測試，在more options中選擇cost sensitive，并將左下至右上對角線上數(shù)值均設(shè)為1。

運行結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率為85.3684%，召回率為0.854，假陽性數(shù)量較大。以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為450000。

將cost sensitive改變?yōu)橹挥凶笙聰?shù)值為1，進行再次運行，得出結(jié)果相同。

為了取得最優(yōu)ROI，使用最小化代價函數(shù)CostsensitiveClassifier，并將參數(shù)minimize expected cost設(shè)置為True，cost sensitive設(shè)置為只有左下角為1。

結(jié)果顯示為：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

可以看出假陽性數(shù)值明顯減少，但是模型正確率和召回率嚴(yán)重下降，且由于真陽性也減少，ROI降低為172800。

因此隨機森林算法中，ROI最大為450000。

支持向量機SVM算法

算法原理

支持向量機（support vector machines, SVM）是一種二分類模型，它的基本模型是定義在特征空間上的間隔最大的線性分類器，基本想法是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并且?guī)缀伍g隔最大的分離超平面。它是針對線性可分情況進行分析，對于線性不可分的情況，通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分，從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。

Weka操作

在package manager中下載LibSVM包，并在classifier模塊中選擇最優(yōu)參數(shù)選擇CVParameterSelection，使用SVM分類算法。

同時調(diào)整cost sensitive為左下至右上數(shù)值均為1，得出結(jié)果為：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率為79.7725%，召回率為0.798，混淆矩陣中假陽性仍然很多，ROI數(shù)值為623100。修改cost sensitive為只有左下數(shù)值為1時，結(jié)果相同。

使用最小化代價函數(shù)CostsensitiveClassifier，并將參數(shù)minimize expected cost設(shè)置為True，cost sensitive設(shè)置為左下至右上數(shù)值均為1時，結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

相比最優(yōu)參數(shù)選擇構(gòu)建的模型，正確率略下降為79.281%，召回率為0.793，ROI數(shù)值為616800，同樣小于最優(yōu)參數(shù)構(gòu)建模型。

因此SVM分類算法最大ROI為623100。

將test和train兩個數(shù)據(jù)集中的target變量從數(shù)字型轉(zhuǎn)化為名義型

CART

原理：

C4.5中模型是用較為復(fù)雜的熵來度量，使用了相對較為復(fù)雜的多叉樹，只能處理分類不能處理回歸。對這些問題，CART(Classification And Regression Tree)做了改進，可以處理分類，也可以處理回歸。

1. CART分類樹算法的最優(yōu)特征選擇方法

ID3中使用了信息增益選擇特征，增益大優(yōu)先選擇。C4.5中，采用信息增益比選擇特征，減少因特征值多導(dǎo)致信息增益大的問題。CART分類樹算法使用基尼系數(shù)來代替信息增益比，基尼系數(shù)代表了模型的不純度，基尼系數(shù)越小，不純度越低，特征越好。這和信息增益（比）相反。

假設(shè)K個類別，第k個類別的概率為pk，概率分布的基尼系數(shù)表達式：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

如果是二分類問題，第一個樣本輸出概率為p，概率分布的基尼系數(shù)表達式為：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

對于樣本D，個數(shù)為|D|，假設(shè)K個類別，第k個類別的數(shù)量為|Ck|，則樣本D的基尼系數(shù)表達式：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

對于樣本D，個數(shù)為|D|，根據(jù)特征A的某個值a，把D分成|D1|和|D2|，則在特征A的條件下，樣本D的基尼系數(shù)表達式為：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

比較基尼系數(shù)和熵模型的表達式，二次運算比對數(shù)簡單很多。尤其是二分類問題，更加簡單。

和熵模型的度量方式比，基尼系數(shù)對應(yīng)的誤差有多大呢？對于二類分類，基尼系數(shù)和熵之半的曲線如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

基尼系數(shù)和熵之半的曲線非常接近，因此，基尼系數(shù)可以做為熵模型的一個近似替代。

CART分類樹算法每次僅對某個特征的值進行二分，而不是多分，這樣CART分類樹算法建立起來的是二叉樹，而不是多叉樹。

CART分類樹算法具體流程

CART分類樹建立算法流程，之所以加上建立，是因為CART分類樹算法有剪枝算法流程。

算法輸入訓(xùn)練集D，基尼系數(shù)的閾值，樣本個數(shù)閾值。

輸出的是決策樹T。

算法從根節(jié)點開始，用訓(xùn)練集遞歸建立CART分類樹。

(1)對于當(dāng)前節(jié)點的數(shù)據(jù)集為D，如果樣本個數(shù)小于閾值或沒有特征，則返回決策子樹，當(dāng)前節(jié)點停止遞歸。

(2)計算樣本集D的基尼系數(shù)，如果基尼系數(shù)小于閾值，則返回決策樹子樹，當(dāng)前節(jié)點停止遞歸。

(3)計算當(dāng)前節(jié)點現(xiàn)有的各個特征的各個特征值對數(shù)據(jù)集D的基尼系數(shù)，對于離散值和連續(xù)值的處理方法和基尼系數(shù)的計算見第二節(jié)。缺失值的處理方法和C4.5算法里描述的相同。

(4)在計算出來的各個特征的各個特征值對數(shù)據(jù)集D的基尼系數(shù)中，選擇基尼系數(shù)最小的特征A和對應(yīng)的特征值a。根據(jù)這個最優(yōu)特征和最優(yōu)特征值，把數(shù)據(jù)集劃分成兩部分D1和D2，同時建立當(dāng)前節(jié)點的左右節(jié)點，做節(jié)點的數(shù)據(jù)集D為D1，右節(jié)點的數(shù)據(jù)集D為D2。

(5)對左右的子節(jié)點遞歸的調(diào)用1-4步，生成決策樹。

對生成的決策樹做預(yù)測的時候，假如測試集里的樣本A落到了某個葉子節(jié)點，而節(jié)點里有多個訓(xùn)練樣本。則對于A的類別預(yù)測采用的是這個葉子節(jié)點里概率最大的類別。

CART算法缺點：

(1) 無論ID3，C4.5，CART都是選擇一個最優(yōu)的特征做分類決策，但大多數(shù)，分類決策不是由某一個特征決定，而是一組特征。這樣得到的決策樹更加準(zhǔn)確，這種決策樹叫多變量決策樹(multi-variate decision tree)。在選擇最優(yōu)特征的時，多變量決策樹不是選擇某一個最優(yōu)特征，而是選擇一個最優(yōu)的特征線性組合做決策。代表算法OC1。

(2) 樣本一點點改動，樹結(jié)構(gòu)劇烈改變。這個通過集成學(xué)習(xí)里面的隨機森林之類的方法解決。

Weka操作

運行結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率為84.3148%，識別率=召回率=0.843，F(xiàn)-Measure=0.835。

以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為294100。

將useprune改為False，即不剪枝，運行結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率為83.2124%，識別率=召回率=0.832，F(xiàn)-Measure=0.826。

以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為327900。

對比剪枝結(jié)果，發(fā)現(xiàn)各項指標(biāo)剪枝優(yōu)于不剪枝，而不剪枝的ROI大于剪枝的模型。

調(diào)整矩陣：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

輸出結(jié)果中，混淆矩陣相同。

為了取得最優(yōu)ROI，使用最小化代價函數(shù)CostsensitiveClassifier，并將參數(shù)minimize expected cost設(shè)置為True，cost sensitive設(shè)置為只有左下角為1。simpleCART選擇不剪枝。

輸出結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率和召回率嚴(yán)重下降，ROI降低為209100。

因此simpleCART算法中，ROI最大為327900。

Naivebayes?樸素貝葉斯

樸素貝葉斯算法

樸素貝葉斯算法（Naive Bayesian algorithm) 是應(yīng)用最為廣泛的分類算法之一。

樸素貝葉斯方法是在貝葉斯算法的基礎(chǔ)上進行了相應(yīng)的簡化，即假定給定目標(biāo)值時屬性之間相互條件獨立。也就是說沒有哪個屬性變量對于決策結(jié)果來說占有著較大的比重，也沒有哪個屬性變量對于決策結(jié)果占有著較小的比重。雖然這個簡化方式在一定程度上降低了貝葉斯分類算法的分類效果，但是在實際的應(yīng)用場景中，極大地簡化了貝葉斯方法的復(fù)雜性。

優(yōu)缺點：

優(yōu)點

樸素貝葉斯算法假設(shè)了數(shù)據(jù)集屬性之間是相互獨立的，因此算法的邏輯性十分簡單，并且算法較為穩(wěn)定，當(dāng)數(shù)據(jù)呈現(xiàn)不同的特點時，樸素貝葉斯的分類性能不會有太大的差異。換句話說就是樸素貝葉斯算法的健壯性比較好，對于不同類型的數(shù)據(jù)集不會呈現(xiàn)出太大的差異性。當(dāng)數(shù)據(jù)集屬性之間的關(guān)系相對比較獨立時，樸素貝葉斯分類算法會有較好的效果。

缺點

屬性獨立性的條件同時也是樸素貝葉斯分類器的不足之處。數(shù)據(jù)集屬性的獨立性在很多情況下是很難滿足的，因為數(shù)據(jù)集的屬性之間往往都存在著相互關(guān)聯(lián)，如果在分類過程中出現(xiàn)這種問題，會導(dǎo)致分類的效果大大降低。

Weka操作過程

打開預(yù)處理后的訓(xùn)練集，在classifier模塊中選擇CVParameterSelection，并選擇simpleCART決策分類樹算法，尋找最佳參數(shù)。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型的正確率僅52.6863%，識別率=召回率=0.527，F(xiàn)-Measure=0.467，模型各項指標(biāo)很差，而且模型不穩(wěn)定。

以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為317400。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

輸出結(jié)果如下：

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率和召回率嚴(yán)重下降，ROI降低為0。

因此naivebayes算法中，ROI最大為317400。

而觀測各項指標(biāo)結(jié)果，以及bayes適用范圍可以判斷，該數(shù)據(jù)集不適合使用bayes算法。

ID3

weka操作

相同步驟，target名義變量設(shè)置，cost sensitive 設(shè)置，將假陽性錯誤的代價敏感度提高，選擇ID3算法，結(jié)果如下，Recall 為75.2%，ROI 為1550000。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

J48算法

J48流程

（1）使用經(jīng)過預(yù)處理的數(shù)據(jù)集，使用 CVParameterSelection 中的classifier中的Tree-J48并調(diào)整和尋找最佳參數(shù)，在test option中選擇 Supplied test set 并上傳預(yù)處理完成的測試集：

在經(jīng)過處理后的測試集上進行測試，在more options中選擇cost sensitive，并將左下至右上對角線上數(shù)值均設(shè)為1。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率為78.2026%，召回率為0.782。此時以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為-621800。

為了取得最優(yōu)ROI，使用最小化代價函數(shù)CostsensitiveClassifier，并將參數(shù)minimize expected cost設(shè)置為True，cost sensitive設(shè)置為只有左下角為1。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率和召回率略微下降， ROI降低為-628800.

因此J48算法中，當(dāng)使用目前的參數(shù)時ROI最大為-621800。

Simple logistic

Simple logistic 流程

使用經(jīng)過預(yù)處理的數(shù)據(jù)集，使用 CVParameterSelection 中的classifier中的Functions-SimpleLogistic并調(diào)整參數(shù)，在test option中選擇 Supplied test set 并上傳預(yù)處理完成的測試集：

正確率為61.1917%，召回率為0.612。此時以借款金額每人1000，中介收費率為0.3計算ROI，結(jié)果為-1223700。

為了取得最優(yōu)ROI，使用最小化代價函數(shù)CostsensitiveClassifier，并將參數(shù)minimize expected cost設(shè)置為True，cost sensitive設(shè)置為只有左下角為1。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

模型正確率和召回率并無波動。因此Simple Logistic算法中，當(dāng)使用目前的參數(shù)時ROI最大為-1223700。

項目結(jié)果?

具體結(jié)果已經(jīng)在各個模型后展示，隨機森林和支持向量機算法預(yù)測應(yīng)用效果良好。

評估效果不能只看銷量，要綜合考慮，需要參考業(yè)務(wù)對接，預(yù)測精度，模型可解釋性，預(yù)測結(jié)果僅作為參考一個權(quán)重值，還需要專家意見，按照一定的權(quán)重來計算。

關(guān)于作者

在此對Nuo Liu對本文所作的貢獻表示誠摯感謝，她專長深度學(xué)習(xí)、聚類、分類、回歸、社交網(wǎng)絡(luò)、關(guān)聯(lián)分析。

數(shù)據(jù)獲取

在公眾號后臺回復(fù)“信貸數(shù)據(jù)”，可免費獲取完整數(shù)據(jù)。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸 ?

點擊文末“閱讀原文”

獲取全文完整文檔、數(shù)據(jù)資料。

本文選自《數(shù)據(jù)分享|WEKA用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸信貸違約預(yù)測報告》。

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

本文中的數(shù)據(jù)和完整報告WORD文檔分享到會員群，掃描下面二維碼即可加群！

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

點擊標(biāo)題查閱往期內(nèi)容

數(shù)據(jù)分享|Python信貸風(fēng)控模型：Adaboost,XGBoost,SGD, SVC,隨機森林, KNN預(yù)測信貸違約支付

Python進行多輸出（多因變量）回歸：集成學(xué)習(xí)梯度提升決策樹GRADIENT BOOSTING,GBR回歸訓(xùn)練和預(yù)測可視化

Python對商店數(shù)據(jù)進行l(wèi)stm和xgboost銷售量時間序列建模預(yù)測分析

PYTHON集成機器學(xué)習(xí)：用ADABOOST、決策樹、邏輯回歸集成模型分類和回歸和網(wǎng)格搜索超參數(shù)優(yōu)化

R語言集成模型：提升樹boosting、隨機森林、約束最小二乘法加權(quán)平均模型融合分析時間序列數(shù)據(jù)

Python對商店數(shù)據(jù)進行l(wèi)stm和xgboost銷售量時間序列建模預(yù)測分析

R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數(shù)據(jù)并高維可視化

R語言基于樹的方法：決策樹，隨機森林，Bagging，增強樹

R語言用邏輯回歸、決策樹和隨機森林對信貸數(shù)據(jù)集進行分類預(yù)測

spss modeler用決策樹神經(jīng)網(wǎng)絡(luò)預(yù)測ST的股票

R語言中使用線性模型、回歸決策樹自動組合特征因子水平

R語言中自編基尼系數(shù)的CART回歸決策樹的實現(xiàn)

R語言用rle，svm和rpart決策樹進行時間序列預(yù)測

python在Scikit-learn中用決策樹和隨機森林預(yù)測NBA獲勝者

python中使用scikit-learn和pandas決策樹進行iris鳶尾花數(shù)據(jù)分類建模和交叉驗證

R語言里的非線性模型：多項式回歸、局部樣條、平滑樣條、廣義相加模型GAM分析

R語言用標(biāo)準(zhǔn)最小二乘OLS，廣義相加模型GAM?，樣條函數(shù)進行邏輯回歸LOGISTIC分類

R語言ISLR工資數(shù)據(jù)進行多項式回歸和樣條回歸分析

R語言中的多項式回歸、局部回歸、核平滑和平滑樣條回歸模型

R語言用泊松Poisson回歸、GAM樣條曲線模型預(yù)測騎自行車者的數(shù)量

R語言分位數(shù)回歸、GAM樣條曲線、指數(shù)平滑和SARIMA對電力負(fù)荷時間序列預(yù)測

R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態(tài)可視化

如何用R語言在機器學(xué)習(xí)中建立集成模型？

R語言ARMA-EGARCH模型、集成預(yù)測算法對SPX實際波動率進行預(yù)測

在python 深度學(xué)習(xí)Keras中計算神經(jīng)網(wǎng)絡(luò)集成模型

R語言ARIMA集成模型預(yù)測時間序列分析

R語言基于Bagging分類的邏輯回歸(Logistic Regression)、決策樹、森林分析心臟病患者

R語言基于樹的方法：決策樹，隨機森林，Bagging，增強樹

R語言基于Bootstrap的線性回歸預(yù)測置信區(qū)間估計方法

R語言使用bootstrap和增量法計算廣義線性模型（GLM）預(yù)測置信區(qū)間

R語言樣條曲線、決策樹、Adaboost、梯度提升(GBM)算法進行回歸、分類和動態(tài)可視化

Python對商店數(shù)據(jù)進行l(wèi)stm和xgboost銷售量時間序列建模預(yù)測分析

R語言隨機森林RandomForest、邏輯回歸Logisitc預(yù)測心臟病數(shù)據(jù)和可視化分析

R語言用主成分PCA、?邏輯回歸、決策樹、隨機森林分析心臟病數(shù)據(jù)并高維可視化

Matlab建立SVM，KNN和樸素貝葉斯模型分類繪制ROC曲線

matlab使用分位數(shù)隨機森林（QRF）回歸樹檢測異常值

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸

數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...,數(shù)據(jù)挖掘,決策樹,隨機森林,支持向量機,邏輯回歸文章來源地址http://www.zghlxwxcb.cn/news/detail-699156.html

到了這里，關(guān)于數(shù)據(jù)分享|WEKA信貸違約預(yù)測報告：用決策樹、隨機森林、支持向量機SVM、樸素貝葉斯、邏輯回歸...的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

用決策樹或隨機森林解決泰坦尼克號乘客生存預(yù)測（內(nèi)附數(shù)據(jù)集百度網(wǎng)盤）
?實現(xiàn)該模型的訓(xùn)練要用到的主要算法和實現(xiàn)思路是 ? 首先的首先當(dāng)然是導(dǎo)包啦 ? 然后就是讀取文件里面的數(shù)據(jù)進來了數(shù)據(jù)集下載：百度網(wǎng)盤鏈接：https://pan.baidu.com/s/1slaouE4Es37U8u0U-kDJnw 提取碼：ss5o ? 接著是進行對數(shù)據(jù)進行基本的處理了，以下是作者的處理方法：第一步是
2024年02月15日
瀏覽(14)
碳排放預(yù)測模型 | Python實現(xiàn)基于機器學(xué)習(xí)回歸分析的碳排放預(yù)測模型——隨機森林、決策樹、KNN 和多層感知器 (MLP) 預(yù)測分析
效果一覽
2024年02月09日
瀏覽(98)
機器學(xué)習(xí)實戰(zhàn)13-超導(dǎo)體材料的臨界溫度預(yù)測與分析(決策樹回歸,梯度提升回歸,隨機森林回歸和Bagging回歸)
大家好，我是微學(xué)AI，今天給大家介紹一下機器學(xué)習(xí)實戰(zhàn)13-超導(dǎo)體材料的臨界溫度預(yù)測與分析(決策樹回歸,梯度提升回歸,隨機森林回歸和Bagging回歸)，這幾天引爆網(wǎng)絡(luò)的科技大新聞就是韓國科研團隊宣稱發(fā)現(xiàn)了室溫超導(dǎo)材料-LK-99，這種材料在常壓情況下，127攝氏度就可以達到超
2024年02月14日
瀏覽(34)
基于weka手工實現(xiàn)ID3決策樹
相比于logistic回歸、BP網(wǎng)絡(luò)、支持向量機等基于超平面的方法，決策樹更像一種算法，里面的數(shù)學(xué)原理并不是很多，較好理解。決策樹就是一個不斷地屬性選擇、屬性劃分地過程，直到滿足某一情況就停止劃分。當(dāng)前樣本全部屬于同一類別了（信息增益為0）；已經(jīng)是空葉子
2024年02月14日
瀏覽(87)
數(shù)據(jù)挖掘?qū)嵺`（金融風(fēng)控）：金融風(fēng)控之貸款違約預(yù)測挑戰(zhàn)賽（上篇）[xgboots/lightgbm/Catboost等模型]--模型融合：stacking、blending
賽題以金融風(fēng)控中的個人信貸為背景，要求選手根據(jù)貸款申請人的數(shù)據(jù)信息預(yù)測其是否有違約的可能，以此判斷是否通過此項貸款，這是一個典型的分類問題。通過這道賽題來引導(dǎo)大家了解金融風(fēng)控中的一些業(yè)務(wù)背景，解決實際問題，幫助競賽新人進行自我練習(xí)、自我提高。
2024年02月05日
瀏覽(25)
數(shù)學(xué)建模復(fù)盤之 --- 2020數(shù)學(xué)建模國賽C-中小微企業(yè)的信貸決策
該項目為2020年，國賽數(shù)學(xué)建模，本學(xué)長幫助同學(xué)完成，共帶5隊，3個一等獎，2個二等獎，今天帶大家進行復(fù)盤。本次復(fù)盤非提供給同學(xué)的參賽項目，這里只做基礎(chǔ)的簡單分析，參賽作品不給予提供。數(shù)據(jù)一用提供了3個csv文件：附件1：123家有信貸記錄企業(yè)的相關(guān)數(shù)據(jù).xlsx 附
2023年04月10日
瀏覽(47)
用戶貸款違約預(yù)測-Top1方案-單模0.9414
用戶貸款違約預(yù)測，分類任務(wù)，label是響應(yīng)變量。采用AUC作為評價指標(biāo)。相關(guān)字段以及解釋如下。數(shù)據(jù)集質(zhì)量比較高，無缺失值。由于數(shù)據(jù)都已標(biāo)準(zhǔn)化和匿名化處理，因此較難分析異常值。字段描述類型 id 樣本唯一標(biāo)識符已匿名處理 income 用戶收入已做標(biāo)準(zhǔn)化處理 age 用戶
2023年04月16日
瀏覽(19)
機器學(xué)習(xí)：基于邏輯回歸對某銀行客戶違約預(yù)測分析
作者：i阿極作者簡介：Python領(lǐng)域新星作者、多項比賽獲獎?wù)撸翰┲鱾€人首頁 ??????如果覺得文章不錯或能幫助到你學(xué)習(xí)，可以點贊??收藏??評論??+關(guān)注哦！?????? ??????如果有小伙伴需要數(shù)據(jù)集和學(xué)習(xí)交流，文章下方有交流學(xué)習(xí)區(qū)！一起學(xué)習(xí)進步！?? 專欄案例：
2024年01月17日
瀏覽(22)
人工智能課程設(shè)計畢業(yè)設(shè)計——基于機器學(xué)習(xí)的貸款違約預(yù)測
摘 ?要隨著人們對于貸款的需求量不斷增加以及我國債券市場和信貸市場違約事件頻發(fā)，商業(yè)銀行不良資產(chǎn)率與用戶個人貸款違約風(fēng)險成為了政府和銀行業(yè)關(guān)心的核心問題，而對信用貸款違約風(fēng)險進行有效評估和測度也成為了商業(yè)銀行提高其經(jīng)營管理水平的核心要務(wù)。本小
2024年04月16日
瀏覽(92)
2020年高教社杯全國大學(xué)生數(shù)學(xué)建模C題中小微企業(yè)信貸決策（Matlab代碼）
2024年02月12日
瀏覽(46)