博客專欄

        EEPW首頁 > 博客 > 概述:機器學習和大數據技術在信貸風控場景中的應用(1)

        概述:機器學習和大數據技術在信貸風控場景中的應用(1)

        發布人:數據派THU 時間:2022-01-16 來源:工程師 發布文章

        來源:知乎

        似乎一夜之間,所有的互聯網公司在對外的宣傳稿中都會提及自己使用機器學習和大數據技術,一時間成為了近幾年來最炙手可熱的名詞,不談機器學習、大數據似乎都不好意思說自己是做高新技術的了。

        1.png

        百度搜索指數:機器學習

        2.png

        百度搜索指數:大數據

        上圖來自最近7年來這兩個詞的百度搜索指數,可以看到從2013年開始一直在穩步攀升,在2017年的時候迎來了爆發式的增長,這些都與我們的感知類同。

        3.jpg

        機器學習與人腦思維的區別

        機器學習和大數據應用是相輔相成的,目的是想用機器去模擬人類的思考過程,人類通過自身經歷經過思考可以形成經驗,并用來解決新的問題,而機器學習是需要利用大量的歷史數據去訓練一個模型去解決一個特定的問題:比如識別兩張臉是否一致、該用戶是不是精準客戶等。

        雖然這兩個詞這兩年才火起來,但是這些概念早在半個多世紀前就有理論的提出,尤其機器學習的算法已經在幾十年前就非常成熟了,但是受制于計算效率、存儲等硬件的限制,大數據和機器學習在實際業務上的應用場景十分受限,很難有大規模的場景應用。最近十年來隨著存儲、芯片等層面的突破讓大數據和機器學習的計算應用成本大大降低,這也支撐了基于這兩項技術的應用場景呈現爆發式增長。

        除了機器學習之外,我們也發現互聯網信貸成為了這幾年最火的行業方向,互聯網信貸的工作重心在風控。于是天作佳成,正如目前我們看到的,信貸風控成為當前機器學習和大數據技術最適合也是最成熟的應用場景之一:

        1.金融業務自身需要大量的數據且也會產生更多的數據,這天然的讓信貸風控成為最適合大數據和機器學習的場景;

        2.風控涉及的數據量大、數據面廣、關聯復雜,也急需利用大數據和機器學習技術解決風控過程中效率低、缺乏公平準則、風險難以量化的問題;

        所以正是因為這樣的相互依賴,信貸風控成為當前大數據和機器學習技術應用最成熟的領域之一。

        信貸風控中的主要問題

        信貸風控最關鍵的目標就是從全量申請用戶樣本中找到會逾期的客戶,所以風控的核心目的是評估用戶的還款意愿和還款能力。從過去的業務實踐經驗來看,風控當中需要重點關注的問題包括:

        非本人申請:申請人利用虛假身份申請信貸,這一問題在信貸業務高速增長的蠻荒階段,****或者互金機構缺乏對黑產全面的認知,在部分業務環節被黑產用虛假/殘缺或者非本人身份證欺詐,包括一些知名的持牌消金機構也遇到過大量類似的欺詐案例。

        偽造資料:申請人為了更容易獲得貸款或者貸后惡意逾期避免催收,偽造收入證明、聯系人、工作地址等資料。

        中介團伙:中介在網絡上大量招徠需要信貸申請的用戶,使用不同的攻略“教”客戶如何有機會以較高概率通過****/信貸機構的審核。

        歷史信用記錄:用戶歷史如果存在大量失信行為,或者存在****/毒等不良社會行為,那么其逾期失聯的概率也很高。

        還款能力不足:申請人負債收入比較高,外部有大量債務且自身收入不穩定,這些都有可能導致用戶愿意還款但是卻沒有能力還款。

        基于大數據和機器學習技術的風控解決方案

        為了解決上述的這些問題,目前業內已經形成了一套基于大數據和機器學習技術的較為完整的解決方案。

        非本人申請:人臉識別技術

        目前人臉識別技術已經應用在生活中的方方面面,如刷臉支付、高鐵進站甚至公安的天網系統;而在金融業務中,****辦理、網貸申請也都普遍使用人臉識別:將申請人照片與在公安系統中身份證存照進行比對,判斷兩張照片的相似度,可有效避免非本人申請的問題。

        與人類識別面部類似,當我們人類對一個人比較熟悉的時候,我們很容易根據他的面部特征與我們在腦海里過去存儲的特征進行比對,就能判斷這個人是否是這個人(雖然也會有誤判的時候),同樣的,人臉識別技術的背后也是一套深度學習的算法,把我們思考的過程轉化為模型算法,目前市面上有多家提供人臉識別服務的商業化應用公司,不過其算法的本質基本是類同的,人臉識別的核心思想在于:不同人臉由不同特征組成。

        理解這個思想,首先需要引入的的是“特征”的概念。先看下面這個例子:

        4.jpg

        最簡單的人臉特征

        假設這 5 個特征足夠形容一張人臉,那每張人臉都可表示為這 5 個特征的組合:

        (特征1,特征2,特征3,特征4,特征5)

        一位雙眼皮,挺鼻梁,藍眼睛,白皮膚,瓜子臉的小姐姐即可用特征表示為(見表格加粗項):(1,1,0,1,0)

        那么遍歷上面這張特征表格一共可以代表32張不同的臉。32 張臉可遠遠不夠覆蓋70 多億的人口。為了讓不同特征組成的人臉能覆蓋足夠多人臉,我們需要擴充上面那張特征表。擴張特征表可以從行、列兩個角度展開。

        列的角度很簡單,只需要增加特征數量:(特征6.臉型,特征7.兩眼之間距離,特征8.嘴唇厚薄…)實際應用中通常應用 128,256,512 或者 1024 個不同特征。從行的角度擴充也很好理解,比如“特征3”,除了值 0 代表藍色,值 1 代表灰色,是不是可以增加一個值 2 代表黑色,值 3 代表沒有頭發呢?此外,除了這些離散的整數,我們也可以取連續的小數,比如特征 3 的值 0.1,代表“藍中略微帶黑”,值 0.9 代表“灰中帶藍”……

        5.jpg

        百度開源平臺:面部特征識別

        經過這樣的擴充,特征空間便會變得無限大。擴充后特征空間里的一張臉可能表示為:

        6.jpg

        一張臉提取出128維特征變量

        用于表示人臉的大量特征從哪來?這便是深度學習(深度神經網絡)發揮作用的地方。它通過在千萬甚至億級別的人臉數據庫上學習訓練后,會自動總結出最適合于計算機理解和區分的人臉特征。

        闡明了不同人臉由不同特征組成后,我們便有了足夠的知識來分析人臉,算法工程師通常需要一定的可視化手段才能知道機器到底學習到了哪些利于區分不同人的特征:同一人的不同照片提取出的特征,在特征空間里距離很近,不同人在特征空間里相距較遠。

        7.jpg


        三張不同角度的撒貝寧照片經過神經網絡提取出 128 維的特征后,變成了 3 個在 128 維空間中的點(紅色),劉德華的特征點為綠色。

        不過在實際應用中在光照較差、遮擋、形變(大笑)、側臉等諸多條件下,神經網絡很難提取出與“標準臉”相似的特征。另外,在金融風控領域還需要解決偽造人臉的情況,面對這些問題,通常采取四種應對措施:

        1. 工程角度:研發質量模型,對檢測到人臉質量進行評價,質量較差則不識別/檢驗。

        2. 應用角度:施加場景限制,比如刷臉解鎖、人臉閘機、會場簽到時,都要求用戶在良好的光照條件下正對攝像頭,以避免采集到質量差的圖片。

        3. 算法角度:提升人臉識別模型性能,在訓練數據里添加更多復雜場景和質量的照片,以增強模型的抗干擾能力。

        4.精準活體識別:通過3D建模軟件可以使用用戶已有的照片模擬一張真實的頭像,以此來騙過人臉識別算法,所以如何驗證這個頭像是來自一個真實的人同樣也是一個機器學習的過程。

        8.jpg9.jpg

        鯤魚科技-靈犀聯合實驗室“模擬人臉攻擊”示例

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 深度學習

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 延吉市| 哈巴河县| 广宗县| 福州市| 泰州市| 青海省| 浮梁县| 峨眉山市| 黑河市| 凤阳县| 浙江省| 泰顺县| 城口县| 巴东县| 吴川市| 福州市| 江陵县| 中方县| 兰考县| 宁武县| 扶余县| 水富县| 肇庆市| 阿城市| 连山| 黎川县| 抚顺县| 玛沁县| 新余市| 嘉义县| 垫江县| 宁城县| 龙南县| 抚顺市| 江永县| 册亨县| 河曲县| 台州市| 铜陵市| 郧西县| 宜州市|