各位朋友,最新金融風(fēng)控模型競(jìng)賽開(kāi)始了!競(jìng)賽名稱為金融大數(shù)據(jù)應(yīng)用:企業(yè)信貸風(fēng)險(xiǎn)防控;組織單位:數(shù)字中國(guó)建設(shè)峰會(huì)組委會(huì);中國(guó)建設(shè)銀行提供模型競(jìng)賽數(shù)據(jù)集。
這次模型競(jìng)賽獎(jiǎng)金很高,總獎(jiǎng)金160萬(wàn)元,一等獎(jiǎng)八萬(wàn)元。
賽題背景:
??金融機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型正在如火如荼地進(jìn)行,人工智能作為數(shù)字化轉(zhuǎn)型的重要手段之一,全方位融合賦能金融行業(yè)的業(yè)務(wù)領(lǐng)域和場(chǎng)景應(yīng)用。目前人工智能技術(shù)在金融產(chǎn)品設(shè)計(jì)、市場(chǎng)營(yíng)銷、風(fēng)險(xiǎn)控制、客戶服務(wù)和其他支持性活動(dòng)等金融行業(yè)五大業(yè)務(wù)鏈環(huán)節(jié)均有滲透,特別是以生物特征識(shí)別、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、知識(shí)圖譜等技術(shù)賦能下的金融行業(yè),已經(jīng)衍生出智能營(yíng)銷、智能身份識(shí)別、智能客服等多個(gè)金融人工智能典型場(chǎng)景。
?賽題任務(wù)
??1.將金融數(shù)據(jù)與政務(wù)數(shù)據(jù)相結(jié)合,可自備行業(yè)數(shù)據(jù)豐富模型維度。從需求分析、場(chǎng)景設(shè)計(jì)、解決方案、落地驗(yàn)證、產(chǎn)品價(jià)值多個(gè)方面開(kāi)展創(chuàng)意設(shè)計(jì),提交創(chuàng)意解決方案。
??2.企業(yè)信貸風(fēng)險(xiǎn)防控方案。結(jié)合企業(yè)數(shù)據(jù)與公共數(shù)據(jù),建立企業(yè)信貸風(fēng)險(xiǎn)分析模型。場(chǎng)景方向可從準(zhǔn)入管理、預(yù)警監(jiān)控、信貸調(diào)整、貸后管理等方面,對(duì)企業(yè)各方面的風(fēng)險(xiǎn)進(jìn)行評(píng)估,結(jié)合模型及業(yè)務(wù)場(chǎng)景設(shè)計(jì)完整的風(fēng)險(xiǎn)防控方案,提升銀行信貸風(fēng)險(xiǎn)防控能力。
參賽規(guī)則
???參賽人群:大賽面向社會(huì)各界開(kāi)放,不限年齡國(guó)籍、高校、科研院所、企業(yè)從業(yè)人員均可登錄官網(wǎng)報(bào)名參賽。參與大賽組織工作有關(guān)單位員工可參賽但不可獲獎(jiǎng);
???報(bào)名要求:每道賽題每人僅能參加一支團(tuán)隊(duì)(1-5人),可同時(shí)選擇多道賽題進(jìn)行參賽,不同賽題可以擁有不同的團(tuán)隊(duì),報(bào)名時(shí)所有成員需提供個(gè)人基本信息,并通過(guò)實(shí)名認(rèn)證;需在組隊(duì)截止日期前完成組隊(duì),一旦組隊(duì)不可退出隊(duì)伍。組隊(duì)條件:各成員提交總次數(shù)≤開(kāi)賽天數(shù)*3,且一個(gè)團(tuán)隊(duì)至少有一名中國(guó)籍選手;更多參賽規(guī)則可訪問(wèn)官網(wǎng)主頁(yè)。
數(shù)據(jù)說(shuō)明
這次Toby老師也下載了模型競(jìng)賽數(shù)據(jù),觀察這次數(shù)據(jù)集的變量是公開(kāi)透明的。這意味著此次模型競(jìng)賽非常有意義,我們能通過(guò)數(shù)據(jù)挖掘和建模方法找出有價(jià)值變量和業(yè)務(wù)意義。
下圖是中國(guó)建設(shè)銀行提供數(shù)據(jù)集,共47個(gè)變量,12萬(wàn)客戶數(shù)據(jù),數(shù)據(jù)量還算比較大。
??企業(yè)信貸風(fēng)險(xiǎn)防控?cái)?shù)據(jù)主要包括企業(yè)工商信息、法人基本信息、公積金繳交等金融數(shù)據(jù)與政務(wù)數(shù)據(jù)(均為模擬數(shù)據(jù)),數(shù)據(jù)字典已包含。其中訓(xùn)練集與測(cè)試集可由選手根據(jù)方案實(shí)際情況自行劃分,選手也可自備數(shù)據(jù)豐富方案維度。
提交要求
??參賽者須在初賽階段提供解決方案設(shè)計(jì)說(shuō)明書(shū)(PPT、WORD或PDF格式)和成果模型。內(nèi)容需包括但不限于:
??背景分析 —— 具有現(xiàn)實(shí)意義、面向金融業(yè)實(shí)際面對(duì)的問(wèn)題,結(jié)合具體情況,分析業(yè)務(wù)現(xiàn)狀、當(dāng)前痛點(diǎn)、難點(diǎn);
??實(shí)施方案 —— 基于背景分析,設(shè)計(jì)數(shù)字化場(chǎng)景,提出可解決問(wèn)題、降低金融風(fēng)險(xiǎn)、提升客戶體驗(yàn)的創(chuàng)新思路實(shí)施方案;
??數(shù)據(jù)分析 —— 對(duì)數(shù)據(jù)的選取、使用過(guò)程進(jìn)行分析,包括數(shù)據(jù)清洗過(guò)程、字段篩選、重要性分析等;
??算法分析 —— 對(duì)建模使用的具體算法進(jìn)行分析介紹,包括算法選擇原因、調(diào)參過(guò)程等進(jìn)行分析說(shuō)明;
??作品價(jià)值 —— 體現(xiàn)作品的實(shí)際落地價(jià)值,通過(guò)可度量的指標(biāo)進(jìn)行體現(xiàn)。
提交示例
??解決方案設(shè)計(jì)說(shuō)明書(shū)可以是PPT、WORD或PDF格式,文件名以“賽題名稱+團(tuán)隊(duì)名稱+方案名稱”為準(zhǔn)。
??如有影音、數(shù)據(jù)、模型等文件,請(qǐng)打包在同一個(gè)文件夾壓縮后進(jìn)行提交。
評(píng)測(cè)標(biāo)準(zhǔn)
??大賽主辦方組建大賽專家評(píng)審團(tuán)負(fù)責(zé)比賽評(píng)審工作。
??大賽專家評(píng)審團(tuán)根據(jù)各指標(biāo)比例及對(duì)應(yīng)參考描述,以百分制方式,對(duì)參賽者作品進(jìn)行打分。評(píng)審標(biāo)準(zhǔn)暫擬如下,僅供參考,根據(jù)大賽實(shí)際組織情況調(diào)整,以實(shí)際評(píng)審標(biāo)準(zhǔn)為準(zhǔn)。
評(píng)分維度作品成熟度技術(shù)水準(zhǔn)應(yīng)用潛力答辯表現(xiàn)占比40%30%20%10%
??●?作品成熟度(40%)
??(1)需求分析(10%):具有較強(qiáng)社會(huì)意義、金融行業(yè)實(shí)際需求的問(wèn)題,基于對(duì)數(shù)據(jù)的處理分析,結(jié)合真實(shí)情況,有效把握需求痛點(diǎn)、難點(diǎn)、堵點(diǎn);
??(2)場(chǎng)景設(shè)計(jì)(10%):基于需求分析,設(shè)計(jì)數(shù)字化場(chǎng)景,提出可解決問(wèn)題、減少社會(huì)成本、提高效益的創(chuàng)新思路;
??(3)解決方案(10%):基于賽題場(chǎng)景設(shè)計(jì),提出符合金融需求的可落地解決方案,形成較完善的分析報(bào)告或綜合方案;
??(4)數(shù)據(jù)使用(10%):對(duì)于系統(tǒng)構(gòu)建所需數(shù)據(jù)有較清晰的數(shù)據(jù)清單,其中或包括數(shù)據(jù)類別、數(shù)據(jù)格式、數(shù)據(jù)功能、數(shù)據(jù)來(lái)源等信息,并對(duì)數(shù)據(jù)使用流程做出較清晰規(guī)劃。
??●?技術(shù)水準(zhǔn)(30%)
??(1)先進(jìn)性(5%):有效使用云計(jì)算、大數(shù)據(jù)、人工智能等技術(shù),且技術(shù)能力領(lǐng)先市場(chǎng)已有應(yīng)用,具備技術(shù)先進(jìn)性;
??(2)創(chuàng)新性(20%):解決問(wèn)題的思路、方案具有較強(qiáng)的創(chuàng)新性,與傳統(tǒng)方法有明顯的區(qū)別與升級(jí);
??(3)成熟度(5%):方案深入行業(yè)需求,能夠有效解決行業(yè)痛點(diǎn)問(wèn)題,并針對(duì)未來(lái)實(shí)施過(guò)程中可能遇到的風(fēng)險(xiǎn)問(wèn)題做出預(yù)測(cè),并提出相應(yīng)預(yù)案。
??●?應(yīng)用潛力(20%)
??(1)實(shí)用性(5%):作品方案符合實(shí)際使用場(chǎng)景需求,可落地應(yīng)用,解決真實(shí)業(yè)務(wù)難題;
??(2)普適性(5%):作品方案具有較強(qiáng)的普適性,可適用于多種場(chǎng)景,解決多類問(wèn)題;
??(3)社會(huì)效益(5%):作品方案實(shí)際應(yīng)用后,可產(chǎn)生較大社會(huì)效益,切實(shí)助力惠民、興業(yè)、優(yōu)政;
??(4)商業(yè)價(jià)值(5%):作品方案可高效率、低費(fèi)用應(yīng)用,具有較強(qiáng)的商業(yè)價(jià)值、推廣潛力。
??●?答辯表現(xiàn)(10%)
??答辯時(shí)儀態(tài)得體,語(yǔ)言表達(dá)邏輯清晰,合理解答專家疑問(wèn),展現(xiàn)了較為豐富的經(jīng)驗(yàn)和專業(yè)的能力。
Toby老師指出這次模型競(jìng)賽非常open,不是之前以單個(gè)指標(biāo)(accuracy/AUC/F1 score)來(lái)排名,而是對(duì)參賽者多個(gè)方面考察。之前我寫的文章《四川省大學(xué)生金融科技建模大賽-模型復(fù)現(xiàn)和點(diǎn)評(píng)》提出過(guò)主辦方改進(jìn)建議,如下圖。
貌似主辦方看過(guò)這篇文章,這次項(xiàng)目的確彌補(bǔ)了之前缺點(diǎn),堪稱經(jīng)典。這次比賽非常經(jīng)典,建議大家都去參與,提高自己建模能力。
開(kāi)箱測(cè)試
Toby老師下載數(shù)據(jù)后開(kāi)箱測(cè)試,先繪制變量直方圖和相關(guān)性熱圖,投石問(wèn)路。
Toby老師建議大家不要急著建模,先觀察數(shù)據(jù)分布特征,這類似進(jìn)攻前的情報(bào)收集工作。
Toby老師通過(guò)描述性統(tǒng)計(jì),發(fā)現(xiàn)這數(shù)據(jù)集需要大量預(yù)處理工作,對(duì)初學(xué)者有一定難度。例如時(shí)間變量比較多,可以做衍生變量。
此數(shù)據(jù)集夾雜著錯(cuò)誤數(shù)據(jù),如果參賽者沒(méi)有自動(dòng)化檢測(cè)工具,很難發(fā)現(xiàn)里面埋的坑。例如貸款申請(qǐng)時(shí)間里有2999年數(shù)據(jù),法人出生日期有3019年數(shù)據(jù),這是什么東東?
臟數(shù)據(jù)意味著中國(guó)建設(shè)銀行復(fù)雜數(shù)據(jù)庫(kù)員工工作不仔細(xì),或者故意輸入幾個(gè)錯(cuò)誤數(shù)據(jù)。臟數(shù)據(jù)很正常,因?yàn)閿?shù)據(jù)量太大了,我們經(jīng)常遇到。
Toby老師初次建模觀察,模型性能解決完美。如果是經(jīng)驗(yàn)不足選手,估計(jì)已經(jīng)高興地暈過(guò)去。對(duì)于我們來(lái)說(shuō),模型質(zhì)量好的可疑,我們要去仔細(xì)檢查變量業(yè)務(wù)意義。
果不其然,變量存在數(shù)據(jù)泄露風(fēng)險(xiǎn)。至于什么是數(shù)據(jù)泄露,請(qǐng)大家閱讀之前我寫的文章《數(shù)據(jù)泄露-揭秘機(jī)器學(xué)習(xí)模型如何作弊》。
Toby老師通過(guò)多輪變量篩選,刪除疑似數(shù)據(jù)泄露變量后,最后用34個(gè)變量建模,模型性能非常棒。通過(guò)建模,我發(fā)現(xiàn)數(shù)據(jù)集存在多個(gè)強(qiáng)變量。中國(guó)建設(shè)銀行擁有這些強(qiáng)變量,風(fēng)控能力會(huì)非常不錯(cuò)。
Toby老師入模的34個(gè)變量中,高相關(guān)性變量已經(jīng)非常少。如果更嚴(yán)格一些,這34個(gè)變量還可以繼續(xù)篩選。此模型用10-20個(gè)變量,足以發(fā)揮優(yōu)秀性能。
如下圖,模型AUC為0.98,當(dāng)然我可以做的更高,這屬于前幾輪測(cè)試數(shù)據(jù),模型調(diào)參等提高模型性能方法還沒(méi)用。
有的變量重要性比較低,但業(yè)務(wù)意義比較重要,我還是建議保留,繼續(xù)收集更多數(shù)據(jù)后觀察實(shí)驗(yàn)。我們建模不能只看統(tǒng)計(jì)結(jié)果,還要尊重業(yè)務(wù)意義。數(shù)據(jù)建模和業(yè)務(wù)意義類似于太極的陰和陽(yáng),兩者缺一不可,互相平衡方能發(fā)揮最好效果。
總結(jié)
金融大數(shù)據(jù)應(yīng)用-企業(yè)信貸風(fēng)險(xiǎn)防控模型競(jìng)賽是一次非常棒的比賽!鼓勵(lì)大家多去參與。如果大家想學(xué)習(xí)風(fēng)控建模方法和代碼,可關(guān)注Toby老師自研課程《python金融風(fēng)控評(píng)分卡模型和數(shù)據(jù)分析》。教程包含邏輯回歸,集成樹(shù),神經(jīng)網(wǎng)絡(luò)等常見(jiàn)算法介紹和代碼,有大量實(shí)戰(zhàn)案例,模型性能優(yōu)越,適用于論文,作業(yè),專利,模型競(jìng)賽,企業(yè)模型。歡迎大家收藏,以備工作和學(xué)習(xí)使用。
如果有模型競(jìng)賽定制需求朋友,可給博主留言。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-409400.html
版權(quán)聲明:文章來(lái)自公眾號(hào)(python風(fēng)控模型),未經(jīng)許可,不得抄襲。遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-409400.html
到了這里,關(guān)于金融大數(shù)據(jù)應(yīng)用-企業(yè)信貸風(fēng)險(xiǎn)防控模型競(jìng)賽開(kāi)始-中國(guó)建設(shè)銀行數(shù)據(jù)集-作者開(kāi)箱測(cè)評(píng)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!