風險并不是所有人都能輕松看到,信貸公司同樣如此。
8月4日下午15:00,頂象研發(fā)總監(jiān)就評分卡模型展開分享,詳細介紹了評分卡模型的原理、評分卡模型的構建過程、評分卡模型的開發(fā)投產(chǎn)以及頂象的評分卡模型實踐。
評分卡模型原理
通常來說,我們把貸款分為抵押貸款和信用貸款。抵押貸款顧名思義需要貸款人以抵押物作擔保向銀行貸款,對銀行來說這是一種“有保障”的貸款,而信用貸則不需要提供抵押或擔保,僅憑自己的信譽就能取得貸款,這也在一定程度上加大了信用貸的利率和風險。
因而,信用貸對于金融機構和借貸公司來說是一個不小的風險。
那么,如何幫助金融機構和借貸公司來規(guī)避風險呢?業(yè)內的有效解決方法是建立評分卡模型來幫助金融機構和借貸公司來評估借貸人的風險。
評分卡模型是常用的金融風控手段之一,誕生于上世紀50年代,由FICO公司開發(fā),經(jīng)歷了70多年依然在信用評估中不可替代,幾乎每一家金融公司都在用評分卡模型來評估風險。
其原理是根據(jù)客戶的各種屬性和行為數(shù)據(jù),利用信用評分模型,對客戶的信用進行評分,從而決定是否給予授信,授信的額度和利率,減少在金融交易中存在的交易風險。
按照不同的業(yè)務階段,可以劃分為三種:
貸前:申請評分卡(Application score card),稱為A卡;
貸中:行為評分卡(Behavior score card),稱為B卡;
貸后:催收評分卡(Collection score card),稱為C卡。
如何構建評分卡模型?
首先我們來初步認識下評分卡。
評分卡分為離散特征(性別、婚姻狀況、學歷)和連續(xù)特征(年齡、月收入),其中年齡和月收入又進行字段細分。
要構建一個評分卡,需要以下幾個步驟:
首先是數(shù)據(jù)準備。一般來說,構建評分卡可用的數(shù)據(jù)也分為三類:
即個人在金融機構的賬戶與行為數(shù)據(jù),包括交易行為、日常消費、存款信息、投資理財、逾期信息等;
個人在中國人民銀行的征信報告,包括個人近5年內,在國內留下的所有信用信息、家庭住址、工作單位、配偶信息、手機號、公積金、社保信息、信貸記錄、房貸車貸記錄、歷史逾期信息、違法行為、征信查詢信息,基于人行征信,可以衍生出 “上千維” 特征,足以構建一個效果非常不錯的貸前評分卡;
第三方公司提供的個人信用分,諸如芝麻分、微信支付分、京東信用分、百融分等。
本質上來說,中國人民銀行的征信報告好于金融機構的賬戶與行為數(shù)據(jù)好于第三方公司提供的個人信用分。
其次是數(shù)據(jù)探索,包括數(shù)據(jù)的缺失情況、直方圖分布、最大值、最小值、均值、分位數(shù)。
然后是數(shù)據(jù)預處理,包括數(shù)據(jù)清洗、缺失值處理、異常值處理。
特征篩選,通過統(tǒng)計學的方法,篩選出對違約狀態(tài)影響最顯著的指標。主要有單變量特征選擇和基于機器學習的方法。
分箱,包括變量分段、變量的WOE(證據(jù)權重)變換和邏輯回歸估算三個部分。
模型評估,評估模型的區(qū)分能力、預測能力、穩(wěn)定性,并形成模型評估報告,得出模型是否可以使用的結論。
生成評分卡(信用評分),根據(jù)邏輯回歸的系數(shù)和WOE等確定信用評分的方法,將Logistic模型轉換為標準評分的形式。
建立評分系統(tǒng)(布置上線),根據(jù)生成的評分卡,建立自動信用評分系統(tǒng)。
最后通過評分卡模型收集違約信息,進行效果監(jiān)控。
那么,如何對特征進行分箱(區(qū)間劃分),為什么要分箱?每個分箱的得分,怎么確定的?
WOE、IV、PSI、KS,它們有什么含義?
我們先來看分箱。
分箱是對特征變量進行區(qū)間劃分或者對不同枚舉值進行合并的過程,它可以降低特征的復雜度,提升變量可解釋性。
分箱的兩個功能:
拆分:對 “連續(xù)變量” 進行分段離散化,使它變成 “離散變量”。比如:年齡、月收入。拆分分為等頻拆分、等距拆分、信息熵分箱。
以信息熵分箱為例,這是一種監(jiān)督的拆分方式,可衡量好壞樣本的區(qū)分度。其方法是先對特征所有值進行排序遍歷特征所有值 (連續(xù)值需要進行細粒度分組),以每個值做為劃分點,計算 “條件熵”,選擇 “條件熵最小” 的特征值作為分割點,將數(shù)據(jù)分成兩部分,設置一些停止條件,重復以上步驟。
合并:減少離散變量的狀態(tài)數(shù),對 “離散變量” 進行合并。比如:地區(qū)、學歷。合并又分為卡方檢驗和WOE值。
以卡方檢驗為例??ǚ綑z驗是一種假設檢驗方法,先提出兩個變量沒有相關性,然后對數(shù)據(jù)進行抽象證明他們是否有相關性。根據(jù)卡方檢驗的計算公式對比實際頻數(shù)和理論頻數(shù)是否具有顯著差異,卡方值越小,實際頻數(shù)與理論頻數(shù)就越接近,也就證明卡方檢驗成立,也就可以證明分組與分類不相關。
每個變量的分箱數(shù),控制在十個以下,通常 5個左右是最佳的;分箱越多,模型過擬合的風險越高,模型的穩(wěn)定性也會變差,在金融場景,風險可控與穩(wěn)定至關重要。
WOE (Weight of Evidence) 是判斷 “一個分箱區(qū)間”,區(qū)分好壞樣本的能力。
其公式如下:
IV (Information Value) 是計算各分箱區(qū)間的 WOE 加權和,可以衡量 “一個特征”,區(qū)分好壞樣本的能力。
其公式如下:
但事實上,分箱方法很多,頂象實現(xiàn)了一種簡單可行的全自動分箱方法。
對于連續(xù)變量,可先進行等頻拆分得到細分箱,對于離散變量可直接認為是細分箱,然后進行WOE合并,每次合并WOE值最接近的相鄰細分箱或離散值,同時要滿足以下條件:
1、每個分箱至少包含 5% 的樣本;
2、每個分箱必須包含 正常樣本與違約樣本;
3、分箱數(shù)控制在 5個左右;
4、除了 age 外,其他變量盡可能保持單調性。
值得注意的是,特征分箱并不是完美的,但總體來說利大于弊。
比如連續(xù)變量分箱、離散變量合并,會 “降低特征變量的復雜度,降低模型過擬合的風險”;可以 “增強模型的穩(wěn)定性”,對特征變量的異常波動不會反應太大,也利于適應更廣泛的客群;將特征變量劃分為有限的分箱,可以 “增強模型的可解釋性”;可以更自然地將 “缺失值作為單獨的分箱”。
目前,主流的評分卡模型仍以邏輯回歸模型為主要模型。假設客戶違約的概率為p,則正常的概率為1 ? p。由此可以得到違約幾率:
評分卡是 “將Odds賠率的對數(shù),轉變?yōu)榉种档木€性函數(shù)”,表示如下:
為了確定公式中的A與B值,需要定義2個條件:
1、基準分?P_0 ,在Odds賠率為 θ_0 時的得分 (例如,賠率為 1:50 時,基準分為 500)
2、PDO (point of double),Odds賠率翻倍時減少的分值 (賠率為 1:25 時,減少 20)
評分卡設定的分值刻度可以通過將分值表示為幾率對數(shù)的線性表達式來定義,即:
A和B都是常數(shù)且(a>=0, b>=0)。當希望違約幾率越低,得分越高時,取負號。通常情況下,這是分值的理想變動方向,即高分值代表低風險,低分值代表高風險。
邏輯回歸算法相比于其他算法更優(yōu),一方面是因為其“可解釋性強,易于理解”,可以追查每個變量的得分,變量的權重也可以從業(yè)務視角去交叉驗證;一方面是其“簡單,穩(wěn)定”可配合分箱可以進一步增強穩(wěn)定性,分箱本身也一定程度上解決了部分非線性問題;并且“易于跟蹤,排查問題”,當模型衰退、客群發(fā)生變化時,通過分箱的 PSI 與 IV 可以快速定位出問題的原因。
評分卡模型如何評估、應用、跟蹤?
評分卡模型評估分為效果評估和穩(wěn)定性評估。
先來看效果評估。
模型輸出的每個評分值,都可以作為閾值。如果小于閾值,我們可以預測為“違約”,如果大于等于閾值,則可以預測為“正常”,根據(jù)每個閾值,可以計算出混淆矩陣,然后根據(jù)混淆矩陣我們可以進一步計算出違約比率或正常比率,進而得出KS曲線或者ROC曲線。
其中,KS曲線具備對好壞樣本的區(qū)分能力,如果KS值小于0.20則不建議采用,大于0.75則可能存在錯誤。
但需要注意的是,單獨從KS訓練樣本評估出的KS值還不足以評估模型的好壞,一定要做長期的驗證來證明KS值是穩(wěn)定的,確保模型在驗證集上的 KS 與 訓練樣本上的 KS,不出現(xiàn)大幅度下降,如果下降幅度超過10% (比如: 訓練集 KS = 0.50,4個月后 KS_4 = 0.45, 下降幅度為10%),說明模型衰退明顯,也就進一步說明其穩(wěn)定性是有問題的。
接下來看下穩(wěn)定性評估。
PSI (Population Stability Index)稱為群體穩(wěn)定性指標,用來 “對比2個數(shù)據(jù)集的分布,是否發(fā)生比較大的偏差”,對比一定要有參照物,對評分卡模型來說,參照物是模型訓練時的 “訓練樣本” (期望分布),而評估對象稱為 “驗證樣本”(實際分布)。
PSI 越小則說明穩(wěn)定性越好,如果PSI大于0.50則需要進一步分析特征變量。
PSI 可從兩個計算維度來看,即評分 PSI和特征變量 PSI。
評分 PSI對 “模型的輸出分值” 進行分箱,在驗證集與訓練集上做 PSI 對比,判斷是否發(fā)生大的變化。如下圖,期望分布代表訓練集,實際分布代表驗證集。
特征變量 PSI對 “入模的每個特征變量” 進行分箱,在驗證集與訓練集 上做 PSI 對比,判斷是否發(fā)生大的變化。
同樣的,PSI 也需要做跨期驗證。確保 “評分值、每個特征變量”,在近N個月的驗證集上,對比訓練集計算出的PSI,在可接受的范圍內。
接下來看下模型的應用。
當模型評估合格后,此時我們需要權衡違約率與通過率,確定自動通過閾值。如果閾值在0.2%~0.8%之間則可自動通過閾值,如果在0.8%~3.0%之間則需要人工審核閾值,如果大于3.0%則會直接拒絕。
評分越高,違約率與通過率也是逐步提升,此時我們就需要權衡違約率與通過率,設定閾值來區(qū)分樣本好壞。
最后我們來看下模型跟蹤。
當模型應用后,可能會出現(xiàn)衰退甚至不可用,其原因主要有三:
一是客群變化:模型開發(fā)階段選取的人群,與應用階段的人群,發(fā)生大的偏差。業(yè)務在應用的過程中,有可能在某個渠道引入新人群。
二是特征變量的含義或加工邏輯發(fā)生變化:入模的特征變量,在某個時間點,技術人員不小心更改了字段的加工邏輯,比如:字段的時間窗口,過濾條件等邏輯變化。
三是社會環(huán)境發(fā)生變化:同樣的客群,在不同時期不同的社會經(jīng)濟環(huán)境下,模型的效果表現(xiàn)可能也會不同,比如:新冠疫情、俄烏沖突等社會問題,會導致經(jīng)濟衰退、失業(yè)率升高,進而影響客戶的還款能力。
而發(fā)現(xiàn)模型衰退時,可通過 “評分 PSI” 可以發(fā)現(xiàn)問題,但其根本原因是特征變量,模型監(jiān)控與分析,一定要深入到 “特征變量”,通過 “特征變量 PSI” 找出根本原因 。
模型跟蹤也分為PSI 和KS。
PSI 可做月度監(jiān)控,當月的 “申請樣本” 與 “模型訓練樣本” 進行對比,計算出 “評分PSI” 與 “每個特征變量的PSI”。
同樣的,KS 也可做月度監(jiān)控:收集月度內的 “申請樣本” 以及 “違約標簽”,計算出 “評分KS” 與 “每個特征變量的IV”。
整體來看,評分卡模型是統(tǒng)計學的創(chuàng)新應用,分箱與WOE編碼降低了數(shù)據(jù)的復雜度,降低了特征的靈敏度,提升了模型的穩(wěn)定性,同時可進行跨期驗證,確保驗證模型的長期穩(wěn)定可靠,并且具備配套的跟蹤監(jiān)控體系,根據(jù)評分PSI、參數(shù)PSI、評分KS、參數(shù)IV快速分析模型衰退的原因。文章來源:http://www.zghlxwxcb.cn/news/detail-526420.html
下期我們業(yè)務安全大講堂將由頂象技術總監(jiān)杜威為大家?guī)怼稑I(yè)務安全平臺核心模塊解析——設備指紋》的主題課程,敬請期待!文章來源地址http://www.zghlxwxcb.cn/news/detail-526420.html
到了這里,關于關于信貸評分卡模型,看這篇就夠了!的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!