大模型時代,那些一起訓練AI模型的企業是怎么應對數據顧慮的?
為訓練數據建一個TB級計算「飛地」,聯邦學習的靠譜實現方式了解一下?
2017 年,著名雜志《經濟學人》發表封面文章稱,數據已經取代石油成為當今世界最有價值的資源。在那之后,「數據是新時代的『石油』」這一說法逐漸深入人心。
圖源:https://twitter.com/theeconomist/status/860135249552003073
五年后的今天,人們對數據的重視又上了一個新的臺階,尤其是在 AI 領域。大家普遍認為,數據的質量和規模將對 AI 的研究和落地產生重要影響。
在質量方面,吳恩達等學者提出,AI 領域正經歷從「以模型為中心」到「以數據為中心」的轉變。他認為,「對于很多行業來說,現在更有效率的做法是保持神經網絡體系架構不變,轉而尋找改進數據的方法」。為了幫助機構提升數據質量,吳恩達所在的 Landing.AI 等公司正在構建一些實用的工具。
在規模方面,AI 大廠掀起的大模型暴力美學依然占據主流,人們依然希望借助大數據、大算力探索深度學習的天花板。不過,與大模型需要的海量數據相比,單個機構所能處理的數據往往是不充分的:一是數據量不夠大,二是數據的維度和來源不夠豐富。為了解決這些問題,越來越多的機構開始走向多方聯合的道路,希望借助多方的合力訓練出更精準的 AI 模型,讓數據在流通中發揮應有的價值。
不過,受限于法律法規、政策監管、商業機密、個人隱私等數據隱私安全上的約束,多個數據來源方無法直接交換數據,這就形成了「數據孤島」現象,制約著 AI 模型能力的進一步提高。受此需求驅動,聯邦學習應運而生。
聯邦學習的核心思想是通過在多個擁有本地數據的數據源之間進行分布式模型訓練,在不需要交換本地個體或樣本數據的前提下,僅通過交換模型參數或中間結果的方式,構建基于多方數據下的全局模型,從而實現「數據可用不可見」、「數據不動模型動」。
和 2016 年谷歌剛剛提出這一概念時不同,聯邦學習如今已經有了很多具體的實現路徑,既有基于軟件的,也有基于硬件的。其中,基于硬件的路徑——主要是 TEE(Trusted Execution Environment,可信執行環境)——由于可支持多層次、高復雜度的算法邏輯實現以及運算效率高等優勢而受到廣大企業的青睞,落地速度也在不斷加快,尤其在醫療、金融等數據安全要求較高的行業。
基于 TEE 的醫療科研多方安全計算平臺
首先來說醫療行業。AI + 醫療是一個發展較早的細分領域,但直到今天,Geoffrey Hinton 2016 年的預言——AI 將取代放射科醫生——依然沒有實現。在種種阻礙因素中,醫療領域的數據聚合是一個繞不開的難題,包括患者生命體征信息、疾病信息、影像檢驗報告、互聯網診療記錄、****品使用等各種不能離開醫院的基礎數據。
近幾年,采用 TEE 方案的聯邦學習方法在各醫療科研機構的實踐中收獲了良好的效果,它可以為「使用中」(即處于計算或處理中)的數據提供保護,與其他針對靜態數據和傳輸中的數據的保護方法一起,為數據流動與共享「護航」。
三種狀態下的數據保護
為了保護這些使用中的數據,TEE 會在硬件中為它們單獨分配一塊隔離的內存區域,所有相關數據的計算均在這塊區域中進行,并且除了經過授權的接口外,硬件中的其他部分均不能訪問這塊隔離的內存中的信息,以此來實現隱私計算。
與一般的分布式機器學習或深度學習方案相比,聯邦學習方法可以為醫療科研增添以下優勢:
- 醫療數據不脫離本地,各參與方可接入各自數據訓練全局模型;
- 每個醫療科研參與方都可參與訓練過程,模型損失可控;
- 訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數據及加密形態的前提下進行聯合建模。
如果這種聯邦學習方法或方案能再加上一個前綴——「基于 TEE」,那么它還會收獲更多強化功能,例如它可以通過硬件環境上的隔離,使安全保護機制獨立于軟件應用、操作系統或硬件配置之外,使其保護的對象可以更好地應對來自硬件驅動程序、虛擬機乃至操作系統的攻擊。再如,它的用途,不僅僅是可以提供數據運行態全鏈路的保護,來確保數據中的機密、隱私和完整性得到更強的防護,它還能對指定的應用程序或算法的代碼進行同樣可靠的防護;又如,它還擁有更完備的遠程鑒權能力,能讓相關數據和密鑰的傳遞更為可靠;最后,相比那些非硬件加速支持的聯邦學習及多方隱私計算方案,有 TEE 加持的方案,往往在兼顧安全防護能力和提升數據處理性能上有更好的表現。
正是這些優勢,給了眾多醫療科研機構選擇基于 TEE 構建自己的聯邦學習系統的理由。
以多年來一直深耕醫療 AI 與大數據技術創新的醫渡云為例,這家公司基于聯邦學習等隱私計算方法打造了一個多方安全計算解決方案, 自下而上包含面向院內外業務系統的數據采集系統、進行數據加工治理的專病庫以及開展多方隱私計算的安全計算平臺等幾個部分,其中的多方安全計算平臺也支持 TEE 方式進行構建。
醫渡云多方安全計算解決方案整體架構
而且,他們采用的是實現 TEE 的一種主流技術——英特爾? 軟件防護擴展(Intel? Software Guard Extensions,英特爾? SGX)。
英特爾? SGX技術實際作用示意圖
在工作時,SGX 技術會給相關數據分配一塊隔離區域,也叫「飛地(Enclave)」。我們可以把它理解成一個隔離醫院,但能入駐這個醫院的并不是已經被感染的患者,而是那些健康群體,即需要受到嚴密保護的應用代碼或關鍵數據。SGX 技術能在 CPU 的支持下,在內存等特定硬件環境中構建出這樣一個飛地,讓各醫療科研機構的數據分析、模型訓練及推理所涉及的數據都運行在各自的飛地中,并通過訪問控制為這些應用代碼和數據提供更可信賴的安全保障。
這種飛地獨立于操作系統、虛擬機以及 BIOS 系統之外,也就是說,即便一些比你的應用程序更底層的基礎軟件或系統在惡意攻擊中淪陷,飛地也可以通過基于硬件的、增強型的安全防護更有效地阻斷這些攻擊,盡力避免其中的數據或代碼被竊取或篡改。
那么,這個「飛地」有多大呢?這和你要使用的英特爾處理器的種類及型號有關。醫渡云解決方案使用的是英特爾去年發布的面向單路和雙路服務器的第三代至強? 可擴展處理器,它已經全面內置 SGX 技術,可在雙路服務器上實現最大容量為 1TB 的保留加密內存區域(Enclave Page Cache,EPC,單顆處理器最高支持 512GB),這對于醫療科研機構進一步擴展 AI 模型訓練與推理的數據規模至關重要。
不過,如果你以為醫渡云的方案僅僅是要借 SGX 技術來實現更大、更強的安全「飛地」的話,那就是小看了全新至強? 可擴展處理器在 AI 實踐中的價值了——它除內置有 SGX 技術外,還有來自英特爾? 高級矢量擴展 512(英特爾? AVX-512)技術和英特爾? 深度學習加速(英特爾? DL Boost)技術的加成,也可在兼顧更優安全能力的同時,為醫渡云方案涉及的復雜計算需求提供有力支撐。
因此這款處理器在醫渡云的多方安全計算解決方案中同時發揮著加固安全與提升性能的雙重價值。正是得益于它帶來的綜合優勢,醫渡云已經開始支持多家醫院和醫療科研機構開發一系列基于該方案的聯合研究項目,同時也通過了中國信息通信研究院在隱私保護計算技術上的兩項認證——《基于多方安全計算的數據流通產品技術要求與測試方法》及《基于聯邦學習的數據流通產品技術要求與測試方法》。
基于 TEE 的多源金融大數據隱私計算技術驗證
另一個非常青睞 TEE 解決方案的是金融行業。與其他技術方案相比,以硬件為載體來為數據和代碼提供安全可信環境的 TEE,在金融行業最關注的數據安全、性能以及可用性三個維度上,能取得接近「帕累托最優」的效果,因此受到較多企業的青睞。
聯邦學習中不同安全隱私技術綜合評估
在這個行業,企業通常需要將已有的大量 AI 應用以聯邦學習模式高效、便捷地擴展到現有的分布式大數據平臺上(如 Spark、Flink、Hadoop 集群)。在此過程中,他們可能會遇到一些挑戰,比如如何在開展聯邦學習時依然保持 AI 訓練與推理的高效能?如何在應用 TEE 技術特性時做到數據的全棧可信?如何將二進制應用程序不做改動地運行在 TEE 環境中?
英特爾與中國銀聯電子商務與電子支付國家工程實驗室組成的聯合研究團隊通過開源的統一大數據分析與 AI 平臺——BigDL,驗證了基于 TEE 的聯邦學習與實時預測方案,有助于解決上述問題。
如圖所示,基于英特爾? SGX 技術的 BigDL 提供了自下而上可信的安全技術、不同層面的軟件框架以及用于連接大數據平臺和聯邦學習方法的端到端平臺。
基于英特爾? SGX 技術的BigDL平臺架構
我們重點來看一下安全技術層面。在這一層面,該平臺通過第三代英特爾? 至強? 可擴展處理器集成的英特爾? SGX 技術,提供了所需的 TEE 環境;同時,還通過加入 Gramine-SGX 這樣的開源 LibOS 組件,來加速既有 Al 模型或應用程序在 SGX 技術上的無縫遷移。Gramine-SGX 允許用戶在不修改相應模塊代碼的情況下,通過系統調用的方式直接在 SGX 環境中執行,大大降低了 SGX 技術的應用門檻。同時,這一組件的加入,也使英特爾開源的 OpenVINO? 工具套件和 OneDNN 等重要 Al 軟件工具能夠在 SGX 環境中方便地運行。
一種典型的基于英特爾? SGX-BigDL 平臺的預測方案架構如下圖所示,用戶數據可以導入基于 Gramine-SGX 的 SGX 環境中,由 BigDL 平臺負責連通和調度預測推理所需的模型庫、框架和工具,在完成預測推理后,再向用戶輸出相應結果,中間所涉及的數據和工作流程都可獲得更有效的安全保障。
典型的基于英特爾? SGX-BigDL平臺的預測方案
聯合團隊的驗證結果表明,基于英特爾? SGX-BigDL 平臺部署的實時計算與預測推理方案,能在更好地保障端到端數據安全的前提下,依舊保持預期的性能。
Gartner 曲線:聯邦學習技術還在上升期
「為什么我們要投入聯邦學習?」 中國人工智能開源軟件發展聯盟副理事長王健宗博士在前段時間英特爾聯合國際學術期刊《Science》推出的「架構師成長計劃」第二季系列課程中提出了這樣一個問題。
為了解釋這個問題,他向大家展示了去年的 Gartner 技術成熟度曲線。這份曲線圖顯示,聯邦學習當前正處于高速發展期,未來將成為一項非常重要的計算技術。這也是 Gartner 首次將聯邦學習納入技術成熟度曲線。
Gartner技術成熟度曲線
在應用方面,除了我們前面提到的醫療和金融場景,王健宗還系統地總結了聯邦學習在物聯網、政務等領域的應用。從這里也可以看出,聯邦學習技術的應用范圍正在不斷擴大,越來越多企業正放下顧慮,更放心地參與到共同的 AI 應用開發中來。這背后,以 TEE 為代表的安全計算實現方案功不可沒。
聯邦學習在行業場景中的應用
值得一提的是,王健宗早在幾年前就曾帶領他在平安科技的團隊開始構建基于英特爾? SGX 的 TEE 聯邦學習方案,也見證了這一技術地不斷迭代。他對第三代至強? 可擴展處理器 1TB 的 EPC 容量以及英特爾? SGX 對云邊協同的支持印象深刻。他認為,在現在大家都比較重視隱私保護、數據安全的環境下,英特爾? SGX 為我們提供了一個更安全的可信計算環境。
對于聯邦學習未來的發展,王健宗主要看好三個方向:自動化機器學習、零代碼聯邦和大規模互聯互通。他解釋說,聯邦學習現在仍然是一個比較復雜的技術,有很多工程方面的工作。未來他希望能實現自動化機器學習,以及通過簡單地拖拉拽,實現零代碼的聯邦學習,進而讓聯邦學習應用到更多對數據、代碼安全性要求更高的領域。
參考鏈接:https://www.jiqizhixin.com/articles/2022-02-20-3
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
linux操作系統文章專題:linux操作系統詳解(linux不再難懂)