來源:THU數(shù)據(jù)派 時(shí)間:2017-09-26 11:32:09 作者:張韶峰 季元
[導(dǎo)讀]本文選自百融金服CEO張韶峰和CRO季元于2017年9月14日晚在清華大數(shù)據(jù)“技術(shù)·前沿”系列講座——大數(shù)據(jù)與AI技術(shù)在金融科技的應(yīng)用上的分享。兩位學(xué)長結(jié)合自己在金融行業(yè)和金融科技領(lǐng)域多年的探索,結(jié)合金融領(lǐng)域的反欺詐、信用風(fēng)險(xiǎn)識(shí)別、不良資產(chǎn)催收、精準(zhǔn)營銷等業(yè)務(wù)場景,深入淺出地闡述對(duì)抗生成網(wǎng)絡(luò)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法的金融行業(yè)建模實(shí)踐。
百融金服CEO張韶峰
百融金服CRO季元
張韶峰:首先非常激動(dòng)能夠回到母校跟各位校友,還有各位朋友,來分享這次報(bào)告。我們進(jìn)入到金融科技領(lǐng)域是2012年,我們最早跟銀行交流,想推動(dòng)我們公司用機(jī)器學(xué)習(xí)算法作為模型在銀行應(yīng)用,銀行那時(shí)候習(xí)慣運(yùn)用的算法叫邏輯回歸算法(Logistic regression algorithm),是一種比較簡單的算法。但是我堅(jiān)定地認(rèn)為數(shù)據(jù)有用,至于有什么用,其實(shí)想不清楚,只是后來遇到金融行業(yè)的大爆發(fā)、變革,才發(fā)現(xiàn)數(shù)據(jù)在金融領(lǐng)域的應(yīng)用那么直接。
金融領(lǐng)域一個(gè)非常重要的支柱就是信用體系。中國還有七八億有金融需求的人沒有信用記錄,這是制約中國所謂普惠金融,刺激小微企業(yè)發(fā)展、消費(fèi)發(fā)展,這是屬于基礎(chǔ)設(shè)施的問題。
大數(shù)據(jù)應(yīng)用分層
從大數(shù)據(jù)行業(yè)來看,有些是共通的。
第一步,收集數(shù)據(jù)。
第二步,數(shù)據(jù)處理。把數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,清洗臟數(shù)據(jù)、不準(zhǔn)的數(shù)據(jù),或者做一些脫敏。
第三步,數(shù)據(jù)降維。如果表格的每一行是一個(gè)用戶,一個(gè)表的列數(shù)多達(dá)50萬列,這是非常龐大的一個(gè)維度,處理起來會(huì)導(dǎo)致效率下降,需要做一些數(shù)據(jù)的降維,需要做一些衍生變量。
第四步,數(shù)據(jù)建模。金融里有兩個(gè)模型最重要:第一類是營銷獲客模型,預(yù)測什么人需要什么樣的金融服務(wù),主要是預(yù)測客戶的需求。第二類是風(fēng)控模型。
第五步,大數(shù)據(jù)應(yīng)用。不同的行業(yè)做的應(yīng)用不同。
金融行業(yè)可以在哪些方面具體使用呢
第一步,解決精準(zhǔn)營銷。找好的而且有需求的客戶,這兩個(gè)標(biāo)準(zhǔn)要疊加。金融行業(yè)的精準(zhǔn)營銷難度遠(yuǎn)遠(yuǎn)超過普通消費(fèi)品,這是金融行業(yè)精準(zhǔn)營銷的特殊性。
第二步,準(zhǔn)入。他如果來申請(qǐng)你的貸款,或者買你的保險(xiǎn),你能不能把他放進(jìn)來?你得審批一次。比如你去銀行辦個(gè)貸款,或者辦一個(gè)信用卡,讓你填一大堆資料。
第三步,存量客戶的經(jīng)營或者貸中管理。
第四步,逾期。這是貸后管理。
從營銷、準(zhǔn)入、經(jīng)營、逾期,這四步每一步都可以充分使用大數(shù)據(jù)和人工智能算法來提升效率。
我們完善了一套反欺詐引擎評(píng)分,評(píng)估你有多大概率會(huì)欺詐。規(guī)則是遇到什么情況要采取什么措施。模型是抽像出決策邏輯以及跟欺詐相關(guān)的數(shù)據(jù)。
我們?yōu)榻鹑跈C(jī)構(gòu)提供定制化的服務(wù),因?yàn)槟愕漠a(chǎn)品和你的客戶跟別的金融機(jī)構(gòu)不可能一模一樣。我們的模型可以有差異化,數(shù)據(jù)的準(zhǔn)備、初步篩選、交驗(yàn)檢驗(yàn),篩選相關(guān)性比較高的變量、數(shù)據(jù)的分段,最后建立模型。
我們用一些可視化的算法使金融機(jī)構(gòu)和我們監(jiān)管人員看得更清楚,規(guī)則有沒有命中,客群分布怎么樣。在客觀的分?jǐn)?shù)段中,比如我們公司是300分到1000分,比如700分的人對(duì)應(yīng)100個(gè)人里只有3個(gè)人違約,而500分的人對(duì)應(yīng)100個(gè)人里頭有7個(gè)人違約,不同的分?jǐn)?shù)段意味著不同的違約率,這個(gè)時(shí)候你就知道我應(yīng)該給700分以上的放貸。這個(gè)評(píng)分對(duì)金融機(jī)構(gòu)很重要,你算清楚每給500分的人放款一萬塊錢出去會(huì)虧多少錢,評(píng)分系統(tǒng)會(huì)幫你預(yù)測。
隨后,百融金服CRO季元先生與大家分享了具體的應(yīng)用案例。
案例一:圖深度學(xué)習(xí)應(yīng)用于團(tuán)伙欺詐偵測
季元:百融在群體欺詐的跟蹤、反欺詐方面主要通過無監(jiān)督-異常行為監(jiān)測,還有通過監(jiān)督學(xué)習(xí)-地理位置異常分析(Geohash),具體的實(shí)現(xiàn)方式是通過圖特征學(xué)習(xí)算法。
這是圖特征學(xué)習(xí)算法大概的框架。因?yàn)槲覀冚斎氲氖俏覀兛蛻魣D的特征,這張圖包括邊和點(diǎn),圖的拓譜和節(jié)點(diǎn)的這些屬性構(gòu)造了客戶的基本特征。通過深度神經(jīng)網(wǎng)絡(luò),從這些基本特征出發(fā)衍生出更復(fù)雜的特征。最終我們輸出的是什么?一個(gè)是衍生后的特征,再一個(gè)是觀察,觀察為了從基礎(chǔ)端衍生數(shù)學(xué)特征,把這個(gè)算法形成好東西移植到其他部分。
左邊這個(gè)表是我們常用的一些特征算子。這個(gè)圖反映了某個(gè)局部的具體的階段,百融從DI特征出發(fā)通過Faier做衍生,衍生出新的特征。這個(gè)算法其實(shí)有四個(gè)優(yōu)點(diǎn):
第一它支持不同的屬性圖,因?yàn)橥ǔN覀兊膱D只是節(jié)點(diǎn)和邊,只能反映拓?fù)浣Y(jié)構(gòu);
第二它能輸出復(fù)雜關(guān)系函數(shù)用于跨網(wǎng)絡(luò)遷移學(xué)習(xí);
第三它能夠?qū)W習(xí)出稀疏特征。
第四它支持并行,算法效率高。
這是我們某個(gè)客戶在2017年1月到5月份的用戶申請(qǐng)數(shù)據(jù),申請(qǐng)次數(shù)34萬,用戶數(shù)4.7萬,總共70個(gè)特征。通過我們的算法識(shí)別出了它有12000多欺詐用戶,隸屬于238個(gè)團(tuán)體。
案例二:強(qiáng)化學(xué)習(xí)應(yīng)用于催收模型構(gòu)建
在你借了金融機(jī)構(gòu)的錢之后,如果你一旦逾期不還錢,這個(gè)時(shí)候金融機(jī)構(gòu)在內(nèi)部是按照你逾期的時(shí)間給你劃分的,M1代表逾期一個(gè)月,M2是兩個(gè)月,在不同的逾期時(shí)間,它會(huì)給你不同的催收動(dòng)作。
我們應(yīng)該從序列的觀點(diǎn)看,因?yàn)椴煌娜藢?duì)不同動(dòng)作的響應(yīng)是不一樣的。實(shí)際上你每一步的動(dòng)作都會(huì)影響到后續(xù)的結(jié)果,應(yīng)該以整個(gè)過程的最大的回饋,來決定我們?cè)谑裁喘h(huán)節(jié)采取什么樣的動(dòng)作。這塊我們就把催收過程定義成一個(gè)馬爾科夫決策過程。
通過強(qiáng)化學(xué)習(xí)來求解馬爾科夫決策過程。首先要定一個(gè)價(jià)格函數(shù),其次就是你在不同時(shí)間段收回的錢,用折現(xiàn)因子折算到當(dāng)前來看你的最大值,我們要求價(jià)值函數(shù)的最優(yōu)點(diǎn),這個(gè)算法是通過價(jià)值迭代來實(shí)現(xiàn)。
案例三:遷移學(xué)習(xí)應(yīng)用于客群評(píng)分構(gòu)建
我們的信用評(píng)分體系包括一個(gè)通用評(píng)分加上6個(gè)客群評(píng)分,通用評(píng)分類似于芝麻評(píng)分。這個(gè)評(píng)分在金融機(jī)構(gòu)是怎么用的呢?我們可以看到這個(gè)圖,柱狀圖表示不同分?jǐn)?shù)段人數(shù)的占比,線圖是不同分?jǐn)?shù)段人數(shù)的的違約率,我們看到最低的300分?jǐn)?shù)段違約率達(dá)到20%以上,最高的700分以上的不到1%。所以一個(gè)金融機(jī)構(gòu)如果選擇了500分以上的人,那么就意味著500分左邊的這些人他都要拒絕掉,而且如果只要500分以上的人的不良率在8%以下,如果他想降低不良率,比如降低4%,那就意味著他要提高準(zhǔn)入標(biāo)準(zhǔn),可能把準(zhǔn)入的門檻提高到600或者更高。
這是我們的6個(gè)客群評(píng)分,這個(gè)評(píng)分實(shí)際上對(duì)金融機(jī)構(gòu)來講非常重要,因?yàn)榇蠹蚁M覀儼褖娜巳^濾掉,好人全放進(jìn)來,這是不可能實(shí)現(xiàn)的?,F(xiàn)實(shí)中我們的評(píng)分通常居于兩者之間,我們的目標(biāo)是盡可能的靠近最好的那個(gè)部分。除了這7個(gè)標(biāo)準(zhǔn)評(píng)分之外我們還有定制產(chǎn)品,剛才邵峰介紹的給客戶做定制化的建模,因?yàn)楹玫目蛻粝MY(jié)合他的內(nèi)部數(shù)據(jù)和我們百融數(shù)據(jù)一起構(gòu)建一個(gè)專屬于他的評(píng)分,這樣效果會(huì)比標(biāo)準(zhǔn)評(píng)分更好。
在信用評(píng)分構(gòu)建的過程中存在一些現(xiàn)實(shí)問題,在講這些問題之前我先給大家簡單介紹一下什么叫遷移學(xué)習(xí)。兩個(gè)基本概念:
第一個(gè)是域,域?qū)嶋H上包括兩個(gè)元素,X是特征區(qū)間,這些變量的維度, P(X)是特征空間上的概率分布,實(shí)際上是我們的樣本和這些特征的分布。
第二個(gè)是任務(wù),任務(wù)包括一個(gè)標(biāo)簽空間,是在樣本特征空間上好或者壞甚至更多的內(nèi)容,屬于監(jiān)督學(xué)習(xí)的一部分。
我們知道域和標(biāo)簽空間來求這個(gè)條件概率。
在遷移學(xué)習(xí)里面需要兩個(gè)域和目標(biāo),一個(gè)是源域和源任務(wù),一個(gè)是目標(biāo)域和目標(biāo)任務(wù)。按照剛才定義我們現(xiàn)在有四種情況:
第一,源域的特征空間和目標(biāo)域的特征空間不同;
第二,邊際概率分布不同;
第三,標(biāo)簽空間不同;
第四,條件概率不同。
這四種組合起來就是16個(gè),但是現(xiàn)實(shí)生活中這16種組合不會(huì)都存在。包括比較典型的就是這三類:
第一種是線上客群和線下客群,它們的特點(diǎn)不一樣,因?yàn)榫€上客群我們能采集的特征的維度更多;
第二種是同產(chǎn)品不同機(jī)構(gòu)的客群,主要體現(xiàn)在邊際概率分布和條件概率分布;
第三種是同機(jī)構(gòu)不同產(chǎn)品的客群,主要是特征空間和條件概率不一樣。
我們建模過程中碰到的比較現(xiàn)實(shí)的問題,有些客戶不會(huì)告訴你標(biāo)簽空間,那這種情況下怎么建模?
第一步,通過域適應(yīng)算法對(duì)源目標(biāo)域的特征進(jìn)行降維處理。
第二步,構(gòu)造邊際分布實(shí)驗(yàn)。構(gòu)造一個(gè)函數(shù)來刻畫源域和目標(biāo)域的邊際分布的差異,度量兩個(gè)概率分布的差到底有多大。
第三步,策劃條件分布實(shí)驗(yàn)。識(shí)別源任務(wù)的條件概率和目標(biāo)任務(wù)的條件概率的差。
第四步,基于前兩步構(gòu)造目標(biāo)函數(shù)做優(yōu)化。
第五步,進(jìn)行迭代運(yùn)算。
案例四:知識(shí)圖譜應(yīng)用于貸前反欺詐
知識(shí)圖譜本質(zhì)上是一個(gè)語義網(wǎng)絡(luò),在人工智能里一直有兩個(gè)流派,一個(gè)叫連接主義,我們第一個(gè)案例里面講的深度神經(jīng)網(wǎng)絡(luò)屬于連接主義,它是模擬人腦的硬件結(jié)構(gòu),本質(zhì)上是統(tǒng)計(jì)學(xué)。第二個(gè)流派叫符號(hào)主義,知識(shí)圖譜就歸屬于符號(hào)主義,它模擬的是人腦的推理方式,實(shí)際上是人腦軟件。這兩種流派實(shí)際上一直并行,上世紀(jì)五六十年代人工智能剛興起的時(shí)候是符號(hào)主義領(lǐng)先,近年來隨著計(jì)算能力的提升,連接主義開始突起。
知識(shí)圖譜相當(dāng)于你要把人的經(jīng)驗(yàn)做知識(shí)表示和推理,所以你要把經(jīng)驗(yàn)固化成知識(shí)圖譜,通過這些語義的運(yùn)算來做反欺詐判斷。我們通常把推理分為:不一致性驗(yàn)證;機(jī)構(gòu)異常分析。
未知性的驗(yàn)證,比方說兩個(gè)人用的是同一個(gè)單位電話,但是寫的單位名稱和單位地址不一樣,根據(jù)我們經(jīng)驗(yàn)這不符合邏輯,通過知識(shí)圖譜能把這種欺詐方式識(shí)別出來。
靜態(tài)分析像我們第一個(gè)案例里面講的結(jié)構(gòu)。動(dòng)態(tài)分析,通常情況下人的行為特征應(yīng)該是穩(wěn)定的,如果你短時(shí)間變化快的話,那我們認(rèn)為你也有欺詐嫌疑。
以上是我分享的主要內(nèi)容,謝謝大家。
張韶峰先生畢業(yè)于清華大學(xué),擁有清華大學(xué)電氣工程自動(dòng)化學(xué)士、碩士學(xué)位。他有15年IT、大數(shù)據(jù)領(lǐng)域經(jīng)驗(yàn),持續(xù)創(chuàng)業(yè)者,先后效力Oracle、ESS、IBM等國際一流的科技公司。他曾經(jīng)創(chuàng)辦了專注于數(shù)據(jù)挖掘的公司天才博通,任執(zhí)行副總裁;2009年與兩位合伙人共同創(chuàng)辦大數(shù)據(jù)技術(shù)與應(yīng)用服務(wù)頂級(jí)公司百分點(diǎn)科技,目前該公司已占領(lǐng)國內(nèi)超90%的推薦引擎市場。2014年,張韶峰先生創(chuàng)辦專注服務(wù)于金融領(lǐng)域的大數(shù)據(jù)金融信息服務(wù)的公司百融金服,并擔(dān)任CEO。
季元先生是清華大學(xué)數(shù)學(xué)系博士,從事銀行風(fēng)險(xiǎn)管理近十年,諳熟金融風(fēng)控量化管理、風(fēng)險(xiǎn)策略優(yōu)化等業(yè)務(wù),曾任中國光大銀行金融市場風(fēng)險(xiǎn)處處長,在金融行業(yè)的數(shù)據(jù)分析、平臺(tái)架構(gòu)、模型研究和風(fēng)險(xiǎn)策略等方面具有深刻的理解和深入的研究。2017年加入百融金服擔(dān)任CRO,全面負(fù)責(zé)百融金服整體風(fēng)控業(yè)務(wù)。
責(zé)任編輯:陳近梅