博客專欄

        EEPW首頁 > 博客 > AI-Native數據庫正在打造新一代金融基礎設施

        AI-Native數據庫正在打造新一代金融基礎設施

        發布人:AI科技大本營 時間:2022-10-19 來源:工程師 發布文章
        當IT(Information Technology)向DT(Data Technology)演進時,所有商業實踐都會被重塑。金融企業數字化轉型需要夯實基礎設施,讓企業的IT、DT等系統得以升級和改變,進而融入企業的業務創新、運營管理與金融服務等環節,讓企業經營可以變得更加敏捷、輕松。

        阿拉丁(Aladdin)系統的繁榮,印證著科技改變了華爾街的證券規則。

        圖片

        王樑,數據庫領域資深專家。從事IT行業18年,曾擔任北京電信數據中心運維經理,中科軟科技股份有限公司項目經理;參與國家減災中心數據中心、某省公安廳數據中心等項目的規劃及建設工作。該系統將復雜的風險分析與綜合投資組合交易整合在一個平臺上,可以達成每天監測2000+風險因素,每周進行5000次投資組合壓力測試和1.8億次期權調整計算,為逾100個國家/地區的機構提供服務,全球依賴這一平臺運作的資金規模超過15萬億美元。同樣,在全球智能投顧領域,Wealthfront是一個令無數金融機構難以望其項背的名字。其客戶就職最多的企業依次是Google、Facebook、LinkedIn、Microsoft、Twitter等。與“人機混合”模式的智能投顧不同,Wealthfront身體力行地將金融民主化的理想變成現實,始終站在客戶的角度,最大化客戶利益。

        讓每個人都能實時看到同樣高質量的數據,源于金融信息化從面向流程驅動轉向面向數據化驅動,才能實時進行前端的個性化處置。本質是金融業務底層的基礎設施發生了變遷。

        圖片

        DT對IT的斷崖式洗牌
        金融業務底層基礎設施發生的變遷,源于DT對IT的斷崖式洗牌。首先,算法上摩爾定律失效,不再依靠單個算法性能優化提升,而是通過大規模分布式,以及大規模協同算力來提示算法的效率和性能;其次,互聯網帶來數據實時消費需求,行為生產的數據被即席處理消費,個人點擊流的行為被用作個性化商品推薦,爆發第三波行為數據紅利;最后,算法重構世界,在今天的數字經濟中,很多基于經驗規則流程的商業實踐,甚至一些物理的公理定理,都開始讓位于數據和算法所訓練生成的新的知識。這是兩個賽道的技術,原來的流程驅動的業務Java代碼可復用,形成IT時代的信息化系統,而數據驅動的業務是輸入、輸出一體化,將數據、程序和商業結果一起輸入,通過智能化系統來生產出程序,形成DT時代的智能化服務應用。面向資源服務的虛擬化被面向服務的容器化替代,面向數據可視化、面向分析的BI操作被面向執行的AI所替代。以****為例,如今****開始互聯網的消費化,越來越強調體驗的實時性,交易和分析場景必須一致。傳統的解決方案,一般都是采用數據倉庫T+1匯聚交易數據,進行復雜分析,形成分析結果。分析結果如果需要支持高并發服務應用,就要導入一個關系型數據庫,支持高并發應用服務。在這個傳統解決方案中,數據需要從業務系統遷移到數據倉庫中,分析結果還需要從數據倉庫再遷移到關系型數據庫中,支持高并發數據服務,因此數據需要在這三個數據庫之間進行傳輸,這種數據傳輸產生數據量大、延遲高、數據冗余等問題。要是在分析任務有所變更的情況下,代價會更大。當今業務日趨爭分奪秒,都期待可以突破T+1日的桎梏,走向更加實時的響應。互聯網興起后,應用程序需要每秒支持數十萬甚至數百萬個事務,每個事務的處理延遲以毫秒為單位。互聯網帶來的行為數據要遠遠大于交易數據,而且需要高并發、高擴展、更松耦合的高服務架構能力來完成。舉個例子:****營業廳的個性化理財服務推銷,就需要大量數據倉庫中的加工分析結果數據,直接推送到一線營業廳的服務人員的終端上,進行實時營銷處理。我們再把場景聚集到一個營業廳,假設某天營業廳應用有六萬多人,同時在線需要至少五百個并發/秒,理財經理要在某一時刻看到大客戶的結息、凈值等一系列的數據服務,且都是個性化的,這種個性化服務業務需求是傳統數據倉庫架構無法支撐的。首先,能夠統一支撐事物處理和工具負載分析的數據庫成為必須需求。我們很少看到Google宕機,因為它不是靠單集群可用性來保證,而是靠整個集群的服務來保證性能。在行為數據中誕生了新的架構,就必須生成一個新的分布式架構。近年來,混布數據庫在****承載了很大使命:一方面,滿足海量數據強交易場景;另一方面,權益類服務也和其他服務一樣,需要計時實時處理。****通過引入HTAP數據庫產品,實現業務交易和數據分析緊密結合,TP側支持大量交易流水存儲,提供交易相關的基礎數據;AP側滿足大數據量、復雜的SQL查詢,并支持秒級響應,HTAP優化的融合架構提供更高的處理時效并減少數據副本存儲量。其次,數據使用者發生變化,實時高并發處理成為常態。數據生產方式的變化導致數據使用者也發生變化。傳統的數據消費者是決策者,領導根據數據分析結果進行宏觀決策服務。在個性化服務的時代,數據的消費者不再是少數領導者,還有一線服務人員,一線人員根據數據分析結果實現個性化服務,這讓高并發和實時處理成為常態。如圖1所示,在某行****中心項目中,將****核心系統、信審無紙化系統、客戶決策管理系統的數據通過數據同步工具與在線交易系統聯通后,存入HTAP數據庫,來同時支撐簡單查詢與統計分析。)

        圖片

        圖1 某行****中心全量數據在線應用最后,使用“流批一體”的方式支撐數據分析(離線數據、實時數據)、機器學習、圖計算等多條數據流程。在傳統解決方案中,批計算平臺和流計算平臺是兩套不同的架構體系,批計算平臺一般是大數據平臺或者是數據倉庫進離線加工處理;流計算平臺一般會采用Flink的框架計算實時處理;由于是兩條系統、兩套算子、兩套UDF、兩套計算邏輯,一定會產生不同程度的誤差,這些誤差給業務方帶來了非常大的困擾。這些誤差不是簡單依靠人力或者資源的投入就可以解決的。因此,要構建“流批一體”服務平臺,支撐實時分析、實時營銷等算法模型的應用,通過混布的HTAP數據庫將面向管理的“分析”與面向應用的實時“處理”,以及面向AI的模型訓練與圖算法等通過數據庫實現融合,可以解決困擾用戶的架構難題。試想一下場景:授信企業將所獲貸款挪為他用,投資高風險渠道且投資失敗,所貸款項全部虧損,不僅影響了企業的再生產和經營過程,而且影響到整個產業供應鏈的正常運作。不是傳統分析不能解決,而是在實際業務辦理過程中,供應鏈金融關系錯綜復雜,不是簡單分析能呈現的。伴隨著社會生活和經濟發展模式的全面轉型,為從數據中獲取更多價值,已經開始需要使用圖數據庫獲取深層次的統計信息。比起傳統的信息存儲和組織模式,圖數據庫能夠很清晰地揭示復雜的模式,尤其在錯綜復雜的金融風控業務上效果更為明顯,可謂是一圖勝過千言萬語。能支持流批一體的數據庫,更善于處理大量的、復雜的、互聯的、多變的網狀數據,其效率遠高于傳統的關系型數據庫的百倍、千倍甚至萬倍。如圖2所示,在實際智能權益服務平臺項目中,將用戶的行為數據、實時的交易數據以及地理數據、賬戶數據和外部數據一起通過“流批一體”匯入HTAP分布式數據庫,來支撐智能權益推薦與營銷活動策劃等實時應用。

        圖片

        圖2 智能權益服務平臺“流批一體”實時應用


        圖片

        AI-Native數據庫正在打造新一代金融基礎設施

        如圖3所示,“BigIdeas 2021”提出“Deep Learning”概念,即軟件2.0時代。在軟件2.0時代,數據結構開始基礎設施化,同時高精尖的算法學習流水線化。

        圖片

        圖3 Deep Learning Is Software 2.0

        軟件工程逐步由程序員個體腦力勞動生產,轉向數據驅動的算法應用自動生產,軟件將進入AI規模化生產階段。首先,人工智能做了一次表達能力的升級。我們所熟知的“Google 語音識別”還有“波士頓機器人運動姿態”都說明一個問題:算法具有極強的跨行業屬性,人工智能可以借數學語言通達感官遠遠不及的世界而仍保真。巴塞爾協議對我們的啟示是:預期損失是可以量化的,即預期損失率(EL)=違約概率(PD)*違約損失率(LGD)。這需要借助科技工具,精準的對信用進行量化,找到需求風險和利潤間的平衡點。AI的強項在于可以以極低成本發現信用風險。通過自動化特征工程與自動化機器學習建模,依靠海量數據和強大的分析能力,簡化模型生產流程,提升算法性能,建立起更全面、更客觀的信用體系,是金融機構與信用風險測評之間的紐帶。我們曾在證監會共建的金融實驗室對56000+資管產品做模型預測,模型預測準確率高達80%,在第一次實踐應用中找準4支兌付風險,在第二次實踐應用中找準7支。要知道,金融機構發生的風險所帶來的后果,往往超過對其自身的影響。因此預測風險值的價值遠高于找準風險,這也是人工智能產品的價值。通過人工智能可以預測出風險值的高低,當風險高達某一數值,金融機構就要采取相應措施了,預防風險成為真正的事故。某券商資管圖譜的風險傳播利用復雜網絡作為載體,對資管業務中涉及的自然人、企業和資管產品之間的復雜關系進行建模,理順資金流動方向和風險傳遞方向,從而達到為經營機構預警,進行資產風險防范的目的。資管圖譜方案支持全面的觀察和****資管產品之間的關聯關系,并對風險傳染過程進行建模與量化。降低資管產品之間的風險耦合度,預防風險擴大。在實踐應用中,查詢層數大于二層時,相比較于傳統關系型數據庫查詢速度有數百倍到幾千倍的提升,千億規模的資產風險可以秒級發現。其次,人工智能中復雜網絡可做數據結構升維的隱含知識表達。互聯網時代的到來深刻地改變了人與人之間的連接方式,同時也為在更大規模上驗證人類網絡究竟有多小提供了可能。也就是說更大的網絡、更小的世界。而傳統關系型數據庫的每次關聯都需要一次log計算,是矩陣模型的計算量的N倍,其性能嚴重下降。復雜網絡則不同,它可以很好地呈現節點和關系網絡圖譜,在面對數據多樣、復雜、孤島化,以及單一數據價值不高的應用場景時,存在關系深度搜索、規范業務流程、規則和經驗性預測等需求,使用知識圖譜解決方案將帶來最佳的應用價值。如圖4所示,在查找與節點A相關的節點B的屬性信息時,使用復雜網絡只需進行一次log計算即可獲取結果,而如果要通過傳統數據庫的關系型模型實現,則需要通過至少N-1次jion才能得到結果(N=A節點的一度關聯個數),可以發現,如果進行大量此類結算,使用復雜網絡的矩陣模型在同等配置情況下將會節省大量查詢時間。

        圖片

        圖4 jion查詢對比示意

        在證券行業,原來傘型配資在同一個實體賬戶上同時有多個配資者進行交易,非常容易抽象的刻畫行為。但到了一個實體賬戶上,同時只有一個配資者進行交易,大量實體賬戶被使用,隱蔽性越來越強,如何快速捕捉交易風格的快速切換?深度學習通過組合底層特征形成更加抽象的高層表示屬性類別或特征,以發現數據的分布特征表示。與人工規則構成的方法相比,利用大數據來學習特征,更能豐富客戶數據的內在信息。比如券商的智查系統,可以應用深度學習孿生神經網絡模型,建模識別、監測賬戶的使用一致性,找出潛在配資行為;采用聯邦學習技術,實現“數據不出門,可用不可見”,在保障數據安全情況下,最大化利用行業跨機構數據價值,充分發揮行業云的行業價值。梅特卡夫定律告訴我們,一個網絡的價值與聯網的用戶數的平方成正比。原來一個東西存在供需雙方,但在****數字經濟下,消費的數據也反哺給了我們,產銷合一,數據的消費者即生產者。與此同時,支撐金融智能時代的基礎設施技術需要升級跨越。相信隨著人工智能認知計算的普及落地,更多機器數據生產消費,AI-Native數據庫將會主導和統一市場,成為新一代金融基礎設施。


        圖片

        結語數據庫是基礎軟件皇冠上的明珠,是每一家公司業務系統的核心。在這個賽道上,甲骨文是一座繞不開的大山,只要市場上不出現替代者它可以一直坐享其成。國產數據庫起步晚,在信息、人才、技術等多重窘境之下,很多企業采用“拿來主義”的手段彌補國產技術的空白。要么基于開源系統改進,要么從廠商購買源碼授權。這有點像汽車產業,引進的人很多,但是自主升級開發卻很難。但中國大數據云計算的發展,傳統數據庫技術已經很難支撐,新一代AI原生國產數據庫才是新底座。達爾文說:“自然界的競爭,并無必然法則可尋,關鍵在于個體偶發,是個體自發變異主導著進化的必然。”誰能提供支持混合負載的混布數據庫技術,提供流批一體技術服務,誰就能對抗西方在開源系統封裝服務領域的現有市場,就能定義新一代金融基礎設施。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        物聯網相關文章:物聯網是什么


        電路相關文章:電路分析基礎


        pic相關文章:pic是什么




        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 监利县| 石家庄市| 内黄县| 潼南县| 新田县| 西平县| 丹寨县| 霍山县| 临武县| 塘沽区| 乌兰浩特市| 合川市| 陵川县| 法库县| 五寨县| 翁牛特旗| 肇庆市| 蕲春县| 望城县| 潞城市| 福清市| 安新县| 习水县| 民权县| 方山县| 宁武县| 枝江市| 呼伦贝尔市| 湟中县| 绥阳县| 余姚市| 巴塘县| 武宁县| 双柏县| 建昌县| 浙江省| 宝坻区| 巨鹿县| 南丹县| 长沙市| 德格县|