国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選

這篇具有很好參考價值的文章主要介紹了模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、模型構(gòu)建流程

1.1 實驗設計

新的模型要跟原有方案對比,而且是通過實驗證明,特別注意模型和策略不能同時調(diào)整。一般實驗設計包含以下流程:
模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習

問題:業(yè)務穩(wěn)定后,可以去掉人工審核嗎?

:不可以,一般模型上線后,高分段和低分段的表現(xiàn)較好,但中間段還是需要人工審核;而且即使模型完善后,我們只能減少人工審核,不可能完全舍棄人工審核。

1.2 樣本設計

1.3 模型訓練與評估

在進行模型選擇與評估時,我們按照以下順序進行模型評估:可解釋性>穩(wěn)定性>區(qū)分度。

區(qū)分度指標:AUC和KS
穩(wěn)定性指標:PSI
AUC:ROC曲線下的面積,反映了模型輸出的概率對好壞用戶的排序能力,是模型區(qū)分度的平均狀況。
KS:反映了好壞用戶的分布的最大的差別,是模型區(qū)分度的最佳狀況。

業(yè)務指標里,主要看通過率和逾期率。在合理逾期率的前提下,盡可能提高通過率。

A卡:更注重通過率,逾期率可以稍微低一些;
B卡:想辦法降低逾期率,給好的用戶提高額度。

2、邏輯回歸模型構(gòu)建

邏輯回歸本質(zhì)上還是一個回歸問題,它的輸出結(jié)果是[0,1]之間,那么這個結(jié)果可以對應到用戶的違約概率上,我們可以將違約概率映射到評分上。
例如:
業(yè)內(nèi)標準的評分卡換算公式 s c o r e = 650 + 50 l o g 2 ( P 逾期 / P 未逾期 ) score = 650+50log_{2}(P_{逾期}/P_{未逾期}) score=650+50log2?(P逾期?/P未逾期?),那么這里怎么轉(zhuǎn)化過去呢?我們來看以下的Sigmoid函數(shù):
y = 1 1 + e ? z = 1 1 + e ? ( w T x + b ) y = \frac{1}{1+e^{-z}} = \frac{1}{1+e^{-(w^Tx+b)}} y=1+e?z1?=1+e?(wTx+b)1?
可以轉(zhuǎn)化為以下公式:
l n ( y 1 ? y ) = w T x + b ln(\frac{y}{1-y})=w^Tx+b ln(1?yy?)=wTx+b
而我們評分換算公式可以進行以下變換:
l o g 2 ( P 逾期 / P 未逾期 ) = l n ( P 逾期 1 ? P 逾期 ) / l n ( 2 ) = ( w T x + b ) / l n ( 2 ) log_{2}(P_{逾期}/P_{未逾期}) = ln(\frac{P_{逾期}}{1-P_{逾期}})/ln(2) = (w^Tx+b)/ln(2) log2?(P逾期?/P未逾期?)=ln(1?P逾期?P逾期??)/ln(2)=(wTx+b)/ln(2)
所以我們只需要解出邏輯回歸中每個特征的系數(shù),然后將樣本的每個特征值加權求和即可得到客戶當前的標準化信用評分。其中評分換算公式中的650和50是舉例的,實際需要根據(jù)業(yè)務進行調(diào)整。

邏輯回歸構(gòu)建評分卡代碼

導入模型

# 導入所需要的模塊
import pandas as pd 
from sklearn.metrics import roc_auc_score,roc_curve,auc 
from sklearn.model_selection import train_test_split 
from sklearn import metrics 
from sklearn.linear_model import LogisticRegression 
import numpy as np 
import random 
import math
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

查看數(shù)據(jù)基本信息

df = pd.read_csv('Bcard.txt', encoding='utf-8')
print(df.info())
df.head()

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習

'''
bad_ind 為標簽
外部評分數(shù)據(jù):td_score,jxl_score,mj_score,rh_score,zzc_score,zcx_score
內(nèi)部數(shù)據(jù): person_info, finance_info, credit_info, act_info
obs_month: 申請日期所在月份的最后一天(數(shù)據(jù)經(jīng)過處理,將日期都處理成當月最后一天)
'''
# 看一下申請日期的分布,我們將最后一個月作為測試集,其他作為訓練集
print(df.obs_mth.unique())
print(df.bad_ind.describe())

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
劃分訓練集和測試集

train_df =df[df['obs_mth']!='2018-11-30'].reset_index()
test_df = df[df['obs_mth'] == '2018-11-30'].reset_index()

將所有特征進行模型訓練

# 沒有進行特征篩選的邏輯回歸模型
feature_lst = df.columns.drop(['obs_mth','bad_ind','uid'])
train_X = train_df[feature_lst]
train_y = train_df['bad_ind']
test_X = test_df[feature_lst]
test_y = test_df['bad_ind']
lr_model = LogisticRegression(C=0.1)
lr_model.fit(train_X,train_y)

# 對模型進行評估,這里使用predict_proba返回概率值,左邊為預測為0的概率,右邊為預測為1的概率,我們?nèi)?的概率
# 測試集
y_prob = lr_model.predict_proba(test_X)[:,1]
auc = roc_auc_score(test_y,y_prob)
fpr_lr,tpr_lr,_ = roc_curve(test_y,y_prob)
test_KS = max(tpr_lr-fpr_lr)
# 訓練集
y_prob_train = lr_model.predict_proba(train_X)[:,1]
auc_train = roc_auc_score(train_y,y_prob_train)
fpr_lr_train,tpr_lr_train,_ = roc_curve(train_y,y_prob_train)
train_KS = max(tpr_lr_train-fpr_lr_train)

plt.plot(fpr_lr,tpr_lr,label = 'test LR auc=%0.3f'%auc) #繪制訓練集ROC 
plt.plot(fpr_lr_train,tpr_lr_train,label = 'train LR auc=%0.3f'%auc_train) #繪制驗證集ROC 
plt.plot([0,1],[0,1],'k--') 
plt.xlabel('False positive rate') 
plt.ylabel('True positive rate') 
plt.title('ROC Curve') 
plt.legend(loc = 'best') 
plt.show()
print('訓練集的KS:%0.3f'%train_KS)
print('測試集的KS:%0.3f'%test_KS)

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
用lightgbm對特征進行篩選

# 對特征進行篩選,讓模型更準確
import lightgbm as lgb
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(train_X, train_y, random_state = 0, test_size=0.2)
lgb_clf = lgb.LGBMClassifier(boosting_type='gbdt', 
                             objective = 'binary',
                             metric = 'auc',
                            learning_rate=0.1,
                            n_estimators=24,
                            max_depth=5,
                            num_leaves=20,
                            max_bin=45,
                            min_data_in_leaf = 6, 
                             bagging_fraction = 0.6, 
                             bagging_freq = 0, 
                             feature_fraction = 0.8)
lgb_clf.fit(X_train, y_train,eval_set=[(X_train, y_train),(X_test, y_test)], eval_metric='auc')
lgb_auc = lgb_clf.best_score_['valid_1']['auc']
feature_importance = pd.DataFrame({'name':lgb_clf.booster_.feature_name(),
                                                    'importance':lgb_clf.feature_importances_}).sort_values(by='importance', ascending=False)
feature_importance

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
使用篩選后的四個特征構(gòu)建模型

# 使用排名靠前的四個特征進行新的模型構(gòu)建
feature_lst = feature_importance['name'][0:4]
train_X = train_df[feature_lst]
train_y = train_df['bad_ind']
test_X = test_df[feature_lst]
test_y = test_df['bad_ind']
lr_model = LogisticRegression(C=0.1)
lr_model.fit(train_X,train_y)

# 對模型進行評估,這里使用predict_proba返回概率值,左邊為預測為0的概率,右邊為預測為1的概率,我們?nèi)?的概率
# 測試集
y_prob = lr_model.predict_proba(test_X)[:,1]
auc = roc_auc_score(test_y,y_prob)
fpr_lr,tpr_lr,_ = roc_curve(test_y,y_prob)
test_KS = max(tpr_lr-fpr_lr)
# 訓練集
y_prob_train = lr_model.predict_proba(train_X)[:,1]
auc_train = roc_auc_score(train_y,y_prob_train)
fpr_lr_train,tpr_lr_train,_ = roc_curve(train_y,y_prob_train)
train_KS = max(tpr_lr_train-fpr_lr_train)

plt.plot(fpr_lr,tpr_lr,label = 'test LR auc=%0.3f'%auc) #繪制訓練集ROC 
plt.plot(fpr_lr_train,tpr_lr_train,label = 'train LR auc=%0.3f'%auc_train) #繪制驗證集ROC 
plt.plot([0,1],[0,1],'k--') 
plt.xlabel('False positive rate') 
plt.ylabel('True positive rate') 
plt.title('ROC Curve') 
plt.legend(loc = 'best') 
plt.show()
print('訓練集的KS:%0.3f'%train_KS)
print('測試集的KS:%0.3f'%test_KS)

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
經(jīng)過篩選后的模型針對測試集的數(shù)據(jù),KS和AUC都更高,結(jié)果更加穩(wěn)定。
打印回歸系數(shù)

# 打印回歸系數(shù)
print('變量名單:',feature_lst) 
print('系數(shù):',lr_model.coef_) 
print('截距:',lr_model.intercept_)

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
生成報告

# 生成報告
# 計算出報告中所需要的字段:KS值、負樣本個數(shù)、正樣本個數(shù)、負樣本累計個數(shù)、正樣本累計個數(shù)、捕獲率、負樣本占比
temp_ = pd.DataFrame()
temp_['predict_bad_prob'] = lr_model.predict_proba(test_X)[:,1]
temp_['real_bad'] = test_y
temp_.sort_values('predict_bad_prob', ascending=False, inplace=True)
temp_['num'] = [i for i in range(temp_.shape[0])]
temp_['num'] = pd.cut(temp_.num, bins=20,labels=[i for i in range(20)])
temp_

report = pd.DataFrame()
report['BAD'] = temp_.groupby('num').real_bad.sum().astype(int)
report['GOOD'] = temp_.groupby('num').real_bad.count().astype(int) - report['BAD']
report['BAD_CNT'] = report['BAD'].cumsum()
report['GOOD_CNT'] = report['GOOD'].cumsum()
good_total = report['GOOD_CNT'].max()
bad_total = report['BAD_CNT'].max()
report['BAD_PECT'] = round(report.BAD_CNT/bad_total,3)
report['BAD_RATE'] = report.apply(lambda x:round(x.BAD/(x.BAD+x.GOOD),3), axis=1)

# 計算KS值
def cal_ks(x):
    ks = (x.BAD_CNT/bad_total)-(x.GOOD_CNT/good_total)
    return round(math.fabs(ks),3)
report['KS'] = report.apply(cal_ks,axis=1)
report

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習

繪制BAD_RATE和KS的折線圖

# 繪制出折線圖badrate和ks圖
fig = plt.figure(figsize=(16,10))
ax = fig.add_subplot(111)
ax.plot(report.index.values.to_list(), report.BAD_RATE, '-o', label='BAD_RATE')
ax2 = ax.twinx()
ax2.plot(report.index.values.to_list(), report.KS, '--o', color='red',label='KS')
ax.grid()
ax.set_xlim(-1,20,5)
ax.set_ylim(0,0.1)
ax2.set_ylim(0,0.5)
ax.legend(loc=2)
ax2.legend(loc=0)

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習
構(gòu)建評分公式,對每個客戶進行評分

'''
6     person_info
8     credit_info
9        act_info
7    finance_info
Name: name, dtype: object
系數(shù): [[ 2.48386162  1.88254182 -1.43356854  4.44901224]]
截距: [-3.90631899]
'''

# 計算每個客戶的評分
def score(person_info,credit_info,act_info,finance_info):
    xbeta = person_info*2.48386162+credit_info*1.88254182+act_info*(-1.43356854)+finance_info*4.44901224-3.90631899
    score = 900+50*(xbeta)/(math.log(2))
    return score
test_df['score'] = test_df.apply(lambda x:score(x.person_info,x.credit_info,x.act_info,x.finance_info), axis=1)
fpr_lr,tpr_lr,_ = roc_curve(test_y,test_df['score'])
print('val_ks:', abs(fpr_lr-tpr_lr).max())

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習

根據(jù)評分劃分等級,可以得到每個組別的逾期率

# 根據(jù)評分進行劃分等級
def level(score):
    level = ''
    if score <= 600: 
        level = "D" 
    elif score <= 640 and score > 600 : 
        level = "C" 
    elif score <= 680 and score > 640: 
        level = "B" 
    elif score > 680 : 
        level = "A" 
    return level

test_df['level'] = test_df.score.map(lambda x:level(x))
test_df.level.groupby(test_df.level).count()/len(test_df)

模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選,數(shù)據(jù)分析,項目實戰(zhàn),邏輯回歸,算法,機器學習文章來源地址http://www.zghlxwxcb.cn/news/detail-610347.html

結(jié)論

  • 從報告中可以看出:
    • 模型的KS最大值出現(xiàn)在第6箱(編號5),如將箱分的更細,KS值會繼續(xù)增大,上限為前面通過公式計算出的KS值。
    • 前4箱的樣本占總?cè)藬?shù)的20%,捕捉負樣本占所有負樣本的56.4%。
  • 從折線圖可以看出:
    • 模型在第8箱的位置出現(xiàn)了波動,即第8箱的負樣本占比高于第7箱
    • 雖然曲線圖中有多處波動,但幅度不大,總體趨勢較為平穩(wěn)。因此模型的排序能力仍可被業(yè)務所接受。
  • 從四個組別的逾期率來看C和D的逾期率相近。

到了這里,關于模型構(gòu)建——使用邏輯回歸構(gòu)建模型,lightGBM進行特征篩選的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • python實現(xiàn)Lasso回歸分析(特征篩選、建模預測)

    python實現(xiàn)Lasso回歸分析(特征篩選、建模預測)

    實現(xiàn)功能: python實現(xiàn)Lasso回歸分析(特征篩選、建模預測) 輸入結(jié)構(gòu)化數(shù)據(jù),含有特征以及相應的標簽,采用Lasso回歸對特征進行分析篩選,并對數(shù)據(jù)進行建模預測。 實現(xiàn)代碼: 實現(xiàn)效果: # 繪制Lambda與回歸系數(shù)的關系 ???# 基于最佳的lambda值建模進行特征分析 ???# 基于

    2023年04月12日
    瀏覽(24)
  • 【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構(gòu)建邏輯回歸鳶尾花分類預測模型】

    【基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構(gòu)建邏輯回歸鳶尾花分類預測模型】

    基于IDEA + Spark 3.4.1 + sbt 1.9.3 + Spark MLlib 構(gòu)建邏輯回歸鳶尾花分類預測模型,這是一個分類模型案例,通過該案例,可以快速了解Spark MLlib分類預測模型的使用方法。 運行結(jié)果如下:

    2024年02月14日
    瀏覽(21)
  • 數(shù)據(jù)分析時,進行數(shù)據(jù)建模該如何篩選關鍵特征?

    數(shù)據(jù)分析時,進行數(shù)據(jù)建模該如何篩選關鍵特征?

    1.為什么要做關鍵特征篩選? 在數(shù)據(jù)量與日俱增的時代,我們收集到的數(shù)據(jù)越來越多,能運用到數(shù)據(jù)分析挖掘的數(shù)據(jù)也逐漸豐富起來,但同時,我們也面臨著如何從龐大的數(shù)據(jù)中篩選出與我們業(yè)務息息相關的數(shù)據(jù)。(大背景)從數(shù)據(jù)中挖掘潛在的規(guī)律,輔助我們在實際業(yè)務中

    2023年04月13日
    瀏覽(21)
  • Python實現(xiàn)SSA智能麻雀搜索算法優(yōu)化LightGBM回歸模型(LGBMRegressor算法)項目實戰(zhàn)

    Python實現(xiàn)SSA智能麻雀搜索算法優(yōu)化LightGBM回歸模型(LGBMRegressor算法)項目實戰(zhàn)

    說明:這是一個機器學習實戰(zhàn)項目(附帶 數(shù)據(jù)+代碼+文檔+視頻講解 ),如需 數(shù)據(jù)+代碼+文檔+視頻講解 可以直接到文章最后獲取。 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一種新型的群智能優(yōu)化算法,在2020年提出,主要是受麻雀的覓食行為和反捕食行為的啟發(fā)。 在麻雀覓食

    2024年02月09日
    瀏覽(94)
  • 邏輯回歸與多項式特征:解密分類問題的強大工具

    邏輯回歸與多項式特征:解密分類問題的強大工具

    在機器學習領域,邏輯回歸是一種常用的分類算法,它可以用于解決諸如垃圾郵件過濾、疾病預測和客戶流失分析等各種分類問題。然而,有時候簡單的線性邏輯回歸模型無法捕捉到數(shù)據(jù)中的復雜關系。為了更好地處理這些情況,我們可以引入多項式特征,從而提高模型的表

    2024年02月08日
    瀏覽(22)
  • 【機器學習-18】特征篩選:提升模型性能的關鍵步驟

    【機器學習-18】特征篩選:提升模型性能的關鍵步驟

    一、引言 ??在機器學習領域,特征篩選是一個至關重要的預處理步驟。隨著數(shù)據(jù)集的日益龐大和復雜,特征的數(shù)量往往也隨之激增。然而,并非所有的特征都對模型的性能提升有所貢獻,有些特征甚至可能是冗余的、噪聲較大的或者與目標變量無關的。因此,進行特征篩選

    2024年04月26日
    瀏覽(21)
  • 實戰(zhàn) lasso特征篩選得到5個基因 cox單因素分析得到很多有意義的基因 如何lasso篩選特征基因 然后再進行cox多因素分析

    實戰(zhàn) lasso特征篩選得到5個基因 cox單因素分析得到很多有意義的基因 如何lasso篩選特征基因 然后再進行cox多因素分析

    二、為什么需要用 Lasso + Cox 生存分析模式 一般我們在篩選影響患者預后的變量時,通常先進行單因素Cox分析篩選出關聯(lián)的變量,然后構(gòu)建多因素模型進一步確認變量與生存的關聯(lián)是否獨立。 但這種做法沒有考慮到 變量之間多重共線性的影響 ,有時候我們甚至會發(fā)現(xiàn)單因素

    2024年02月01日
    瀏覽(17)
  • 大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建銀行客戶流失預測模型

    大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建銀行客戶流失預測模型

    ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學習者 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關注+ 喜歡大數(shù)據(jù)分析項目的小伙伴,希望可以多多支持該系列的其他文章 大數(shù)據(jù)分析案例合集

    2024年02月12日
    瀏覽(15)
  • 大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建糖尿病確診預測模型

    大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建糖尿病確診預測模型

    ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學習者 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關注+ 喜歡大數(shù)據(jù)分析項目的小伙伴,希望可以多多支持該系列的其他文章 大數(shù)據(jù)分析案例合集

    2024年02月11日
    瀏覽(27)
  • 大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建乳腺癌分類預測模型

    大數(shù)據(jù)分析案例-基于LightGBM算法構(gòu)建乳腺癌分類預測模型

    ???♂? 個人主頁:@艾派森的個人主頁 ???作者簡介:Python學習者 ?? 希望大家多多支持,我們一起進步!?? 如果文章對你有幫助的話, 歡迎評論 ??點贊???? 收藏 ??加關注+ 喜歡大數(shù)據(jù)分析項目的小伙伴,希望可以多多支持該系列的其他文章 大數(shù)據(jù)分析案例合集

    2024年02月16日
    瀏覽(24)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包