不盲追大模型與堆算力!沈向洋、曹穎與馬毅提出理解 AI 的兩個基本原理:簡約性與自一致性
來源丨AI科技評論編輯丨極市平臺 導讀
本文聚焦人工智能領域三位知名華人科學家新發表的論文,介紹了一個用判別模型和生成模型組成的完整的閉環系統,達到更高效更穩定的自主學習。
近兩年,“大力(算力)出奇跡”的大模型成為人工智能領域多數研究者的追求趨勢。然而,其背后巨大的計算成本與資源耗費問題也弊端漸顯,一部分科學家開始對大模型投以嚴肅的目光,并積極尋求解決之道。新的研究表明,要實現 AI 模型的優秀性能,并不一定要依靠堆算力與堆規模。深度學習火熱十年,不得不說,其機遇與瓶頸在這十年的研究與實踐中已吸引了大量的目光與討論。其中,瓶頸維度,最引人注意的莫過于深度學習的黑盒子特性(缺乏可解釋性)與“大力出奇跡”(模型參數越來越大,算力需求越來越大,計算成本也越來越高)。此外,還有模型的穩定性不足、安全漏洞等等問題。而本質上,這些問題部分是由深度神經網絡的“開環”系統性質所引起。要破除深度學習的 B 面“魔咒”,單靠擴大模型規模與堆算力或許遠遠不夠,而是要追根溯源,從構成人工智能系統的基本原理,從一個新的視角(如閉環)理解“智能”。7月12日,人工智能領域的三位知名華人科學家馬毅、曹穎與沈向洋便聯名在arXiv上發表了一篇文章,“On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence”,提出了一個理解深度網絡的新框架:壓縮閉環轉錄(compressive closed-loop transcription)。這個框架包含兩個原理:簡約性(parsimony)與自洽性/自一致性(self-consistency),分別對應 AI 模型學習過程中的“學習什么”與“如何學習”,被認為是構成人工/自然智能的兩大基礎,在國內外的人工智能研究領域引起了廣泛關注。1
智能的兩個原理:簡約性與自洽性在這篇工作中,三位科學家提出了解釋人工智能構成的兩個基本原理,分別是簡約性與自洽性(也稱為“自一致性”),并以視覺圖像數據建模為例,從簡約性和自洽性的第一原理推導出了壓縮閉環轉錄框架。簡約性
所謂簡約性,就是“學習什么”。智能的簡約性原理,要求系統通過計算有效的方式來獲得緊湊和結構化的表示。也就是說,智能系統可以使用任何描述世界的結構化模型,只要它們能夠簡單有效地模擬現實感官數據中的有用結構。系統應該能夠準確有效地評估學習模型的好壞,并且使用的衡量標準是基礎、通用、易于計算和優化的。以視覺數據建模為例,簡約原理試圖找到一個(非線性)變換 f 來實現以下目標:
壓縮:將高維感官數據 x 映射到低維表示 z;
線性化:將分布在非線性子流形上的每一類對象映射到線性子空間;
劃痕(scarification):將不同的類映射到具有獨立或最大不連貫基礎的子空間。
也就是將可能位于高維空間中的一系列低維子流形上的真實世界數據分別轉換為獨立的低維線性子空間系列。這種模型稱為“線性判別表示”(linear discriminative representation,LDR),壓縮過程如圖 2 所示:圖 2:尋求線性和判別表示,將通常分布在許多非線性低維子流形上的高維感官數據映射到與子流形具有相同維度的獨立線性子空間集。在 LDR 模型系列中,存在衡量簡約性的內在度量。也就是說,給定一個 LDR,我們可以計算所有子空間上的所有特征所跨越的總“體積”以及每個類別的特征所跨越的“體積”之和。然后,這兩個體積之間的比率給出了一個自然的衡量標準,表明 LDR 模型有多好(往往越大越好)。根據信息論,分布的體積可以通過其速率失真來衡量。馬毅團隊在2022年的一個工作“ReduNet: A White-box Deep Network from the Principle of Maximizing Rate Reduction”表明,如果使用高斯的率失真函數并選擇一個通用的深度網絡(比如 ResNet)來對映射 f(x, θ) 進行建模,通過最大限度地降低編碼率。
圖 5:非線性映射 f 的構建塊。圖左:ReduNet 的一層,作為投影梯度上升的一次迭代,它精確地由擴展或壓縮線性算子、非線性 softmax、跳過連接和歸一化組成。圖中和圖右:分別是一層 ResNet 和 ResNeXt。敏銳的讀者可能已經認識到,這樣的圖表與 ResNet(圖 5 中間)等流行的“久經考驗”的深層網絡非常相似,包括 ResNeXt 中的平行列(圖 5 右)和專家混合(MoE)。從展開優化方案的角度來看,這為一類深度神經網絡提供了有力的解釋。甚至在現代深度網絡興起之前,用于尋求稀疏性的迭代優化方案,例如 ISTA 或 FISTA 就已被解釋為可學習的深度網絡。通過實驗,他們證明,壓縮可以誕生一種有建設性的方式來推導深度神經網絡,包括它的架構和參數,作為一個完全可解釋的白盒:它的層對促進簡約的原理性目標進行迭代和增量優化。因此,對于如此獲得的深度網絡,ReduNets,從數據 X 作為輸入開始,每一層的算子和參數都以完全向前展開的方式構造和初始化。這與深度學習中的流行做法非常不同:從一個隨機構建和初始化的網絡開始,然后通過反向傳播進行全局調整。人們普遍認為,由于需要對稱突觸和復雜的反饋形式,大腦不太可能利用反向傳播作為其學習機制。在這里,前向展開優化只依賴于可以硬連線的相鄰層之間的操作,因此更容易實現和利用。一旦我們意識到深度網絡本身的作用是進行(基于梯度的)迭代優化以壓縮、線性化和稀疏化數據,那么就很容易理解過去十年人工神經網絡的“進化”,尤其有助于解釋為什么只有少數 AI 系統通過人工選擇過程脫穎而出:從 MLP 到 CNN 到 ResNet 到 Transformer。相比之下,網絡結構的隨機搜索,例如神經架構搜索,并沒有產生能夠有效執行一般任務的網絡架構。他們猜想,成功的架構在模擬數據壓縮的迭代優化方案方面變得越來越有效和靈活。前面提到的 ReduNet 和 ResNet/ResNeXt 之間的相似性可以例證。當然,還有許多其他例子。
自洽性是關于“如何學習”,即自主智能系統通過最小化被觀察者和再生者之間的內部差異來尋求最自洽的模型來觀察外部世界。僅憑借簡約原理并不能確保學習模型能夠捕獲感知外部世界數據中的所有重要信息。例如,通過最小化交叉熵將每個類映射到一維“one-hot”向量,可以被視為一種簡約的形式。它可能會學習到一個好的分類器,但學習到的特征會崩潰為單例,稱為“神經崩潰”。如此學習來的特征不包含足夠的信息來重新生成原始數據。即使我們考慮更一般的 LDR 模型類別,單獨的降速目標也不會自動確定環境特征空間的正確維度。如果特征空間維度太低,學習到的模型會欠擬合數據;如果太高,模型可能會過擬合。在他們看來,感知的目標是學習一切可預測的感知內容。智能系統應該能夠從壓縮表示中重新生成觀察到的數據的分布,生成后,無論它盡再大的努力,它自身也無法區分這個分布。論文強調,自洽和簡約這兩個原理是高度互補的,應該始終一起使用。僅靠自洽不能確保壓縮或效率方面的增益。在數學和計算上,使用過度參數化的模型擬合任何訓練數據或通過在具有相同維度的域之間建立一對一映射來確保一致性,而不需要學習數據分布中的內在結構是很容易的。只有通過壓縮,智能系統才能被迫在高維感知數據中發現內在的低維結構,并以最緊湊的方式在特征空間中轉換和表示這些結構,以便將來使用。此外,只有通過壓縮,我們才能容易地理解過度參數化的原因,比如,像 DNN 通常通過數百個通道進行特征提升,如果其純粹目的是在高維特征空間中進行壓縮,則不會導致過度擬合:提升有助于減少數據中的非線性,從而使其更容易壓縮和線性化。后續層的作用是執行壓縮(和線性化),通常層數越多,壓縮效果越好。在壓縮到諸如 LDR 之類的結構化表示的特殊情況下,論文將一類自動編碼(具體見原論文)稱為“轉錄”(transcription)。這里的難點在于如何使目標在計算上易于處理,從而在物理上可以實現。速率降低 ΔR 給出了退化分布之間的明確首要距離度量。但它僅適用于子空間或高斯的混合,而不適用于一般分布!而我們只能期望內部結構化表示 z 的分布是子空間或高斯的混合,而不是原始數據 x。這導致了一個關于學習“自洽”表示的相當深刻的問題:為了驗證外部世界的內部模型是否正確,自主系統真的需要測量數據空間中的差異嗎?答案是否定的。關鍵是要意識到,要比較 x 和 x^,智能體只需要通過相同的映射 f 比較它們各自的內部特征 z = f(x) 和 z^ = f(x^),來使 z 緊湊和結構化。測量 z 空間中的分布差異實際上是定義明確且有效的:可以說,在自然智能中,學習內部測量差異是有獨立自主系統的大腦唯一可以做的事情。這有效地生成了一個“閉環”反饋系統,整個過程如圖 6 所示。
圖 6:非線性數據子流形到 LDR 的壓縮閉環轉錄(通過在內部比較和最小化 z 和 z^ 的差異)。這導致了編碼器/傳感器 f 和****/控制器 g 之間的自然追逃博弈,使解碼的 x^(藍色虛線)的分布追逐并匹配觀察到的數據 x(黑色實線)的分布。人們可以將單獨學習 DNN 分類器 f 或生成器 g 的流行做法解釋為學習閉環系統的開放式部分(圖 6)。這種目前流行的做法與開環控制非常相似,控制領域早已知道它存在問題且成本高昂:訓練這樣的部分需要對期望的輸出(如類標簽)進行監督;如果數據分布、系統參數或任務發生變化,這種開環系統的部署本質上是缺少穩定性、魯棒性或自適應性的。例如,在有監督的環境中訓練的深度分類網絡,如果重新訓練來處理具有新數據類別的新任務,通常會出現災難性的遺忘。相比之下,閉環系統本質上更加穩定和自適應。事實上,Hinton 等人在1995年就已經提出了這一點。判別和生成部分需要分別作為完整學習過程的“喚醒”和“睡眠”階段結合起來。然而,僅僅閉環是不夠的。論文主張任何智能體都需要一種內部博弈機制,以便能夠通過自我批評進行自我學習!這當中遵循的是博弈作為一種普遍有效的學習方式的概念:反復應用當前模型或策略來對抗對抗性批評,從而根據通過閉環收到的反饋不斷改進模型或策略!在這樣的框架內,編碼器 f 承擔雙重角色:除了通過最大化速率降低 ΔR(Z) 來學習數據 x 的表示 z(如 2.1 節中所做的那樣),它還應該作為反饋“傳感器”,主動檢測數據 x 和生成的 x^ 之間的差異。**** g 也承擔雙重角色:它是控制器,與 f 所檢測到的 x 和 x? 之間的差異聯系起來;同時又是****,嘗試將整體的編碼率最小化來實現目標(讓步于給定的準確度)。因此,最優的“簡約”和“自洽”表示元組 (z, f, g) 可以解釋為 f(θ) 和 g(η) 之間的零和博弈的平衡點,而不是基于組合速率降低的效用:
以上討論是兩個原理在有監督情況下的表現。但論文強調,他們所提出的壓縮閉環轉錄框架能夠通過自我監督和自我批評來進行自我學習!此外,由于速率降低已經為學習結構找到顯式(子空間類型)表示,使得過去的知識在學習新任務/數據時更容易保留,可以作為保持自一致性的先驗(記憶) 。最近的實證研究表明,這可以產生第一個具有固定內存的自包含神經系統,可以在不遭受災難性遺忘的情況下逐步學習良好的 LDR 表示。對于這樣一個閉環系統,遺忘(如果有的話)是相當優雅的。此外,當再次將舊類別的圖像提供給系統進行審查時,可以進一步鞏固學習到的表示——這一特征與人類記憶的特征非常相似。從某種意義上說,這種受約束的閉環公式基本上確保了視覺記憶的形成可以是貝葉斯和自適應的——假設這些特征對大腦來說是理想的話。如圖 8 所示,如此學習的自動編碼不僅表現出良好的樣本一致性,而且學習到的特征還表現出清晰且有意義的局部低維(薄)結構。
圖 8:圖左:在 CIFAR-10 數據集(有 10 個類別的 50,000 張圖像)的無監督設置中學習的自動編碼的 x 與相應解碼的 x^ 之間的比較。圖右:10 個類別的無監督學習特征的 t-SNE,以及幾個鄰域及其相關圖像的可視化。注意可視化特征中的局部薄(接近一維)結構,從數百維的特征空間投影。更令人驚訝的是,即使在訓練期間沒有提供任何類信息,子空間或特征相關的塊對角結構也開始出現在為類學習的特征中(圖 9)!因此,所學特征的結構類似于在靈長類動物大腦中觀察到的類別選擇區域。
圖 9:通過閉環轉錄,屬于 10 個類別 (CIFAR-10) 的 50,000 張圖像的無監督學習特征之間的相關性。與類一致的塊對角結構在沒有任何監督的情況下出現。
2
通用學習引擎:3D 視覺與圖形結合論文總結,簡約性和自洽性揭示了深度網絡的角色是成為外部觀察和內部表征之間非線性映射的模型。此外,論文強調,閉環壓縮結構在自然界中無處不在,適用于所有智能生物,這一點可以見于大腦(壓縮感覺信息)、脊髓回路(壓縮肌肉運動)、DNA(壓縮蛋白質的功能信息)等等生物示例。因此,他們認為, 壓縮閉環轉錄可能是所有智能行為背后的通用學習引擎。它使智能生物和系統能夠從看似復雜和無組織的輸入中發現和提煉低維結構,并將它們轉換為緊湊和有組織的內部結構,以便記憶和利用。為了說明這個框架的通用性,論文研究了另外兩個任務:3D 感知和決策(LeCun 認為這是自主智能系統的兩個關鍵模塊)。本文整理,僅介紹 3D 感知中計算機視覺與計算機圖形學的閉環。David Marr 在其頗具影響力的著作《視覺》一書中提出的 3D 視覺經典范式提倡“分而治之”的方法,將 3D 感知任務劃分為幾個模塊化過程:從低級 2D 處理(如邊緣檢測、輪廓草圖)、中級 2.5D 解析(如分組、分割、圖形和地面),以及高級 3D 重建(如姿勢、形狀)和識別(如對象),而相反,壓縮閉環轉錄框架提倡“聯合構建”思想。感知是壓縮閉環轉錄?更準確地說,世界上物體的形狀、外觀甚至動態的 3D 表示應該是我們的大腦內部開發的最緊湊和結構化的表示,以相應地解釋所有感知到的視覺觀察。如果是這樣,那么這兩個原理表明緊湊和結構化的 3D 表示就是要尋找的內部模型。這意味著我們可以并且應該在一個閉環計算框架內統一計算機視覺和計算機圖形,如下圖所示:圖10:計算機視覺和圖形之間的閉環關系,用于視覺輸入的緊湊和結構化 3D 模型計算機視覺通常被解釋為為所有 2D 視覺輸入重建和識別內部 3D 模型的前向過程,而計算機圖形學表示其對內部 3D 模型進行渲染和動畫處理的逆過程。將這兩個過程直接組合成一個閉環系統可能會帶來巨大的計算和實踐好處:幾何形狀、視覺外觀和動力學中的所有豐富結構(例如稀疏性和平滑度)可以一起用于統一的 3D 模型, 最緊湊,且與所有視覺輸入一致。計算機視覺中的識別技術可以幫助計算機圖形學在形狀和外觀空間中構建緊湊模型,并為創建逼真的 3D 內容提供新的方法。另一方面,計算機圖形學中的 3D 建模和仿真技術可以預測、學習和驗證計算機視覺算法分析的真實對象和場景的屬性和行為。視覺和圖形社區長期以來一直在實踐“綜合分析”的方法。外觀和形狀的統一表示?基于圖像的渲染,其中,通過從一組給定圖像中學習來生成新視圖,可以被視為早期嘗試用簡約和自洽的原理縮小視覺和圖形之間的差距。特別是,全光采樣表明,可以用所需的最少圖像數量(簡約性)來實現抗鋸齒圖像(自洽性)。
3
更廣泛的智能
人們會期望基本的智能原理對大腦的設計產生重大影響。簡約和自洽原理為靈長類視覺系統的幾個實驗觀察提供了新的思路。更重要的是,它們揭示了未來實驗中要尋找的目標。作者團隊已經證明,僅尋求內部簡約和預測性表示就足以實現“自監督”,允許結構自動出現在通過壓縮閉環轉錄學習的最終表示中。例如,圖 9 顯示無監督數據轉錄學習自動區分不同類別的特征,為在大腦中觀察到的類別選擇性表示提供了解釋。這些特征也為靈長類大腦中稀疏編碼和子空間編碼的廣泛觀察提供了合理的解釋。此外,除了視覺數據建模,最近的神經科學研究表明,大腦中出現的其他結構化表示(例如“位置細胞”)也可能是以最壓縮的方式編碼空間信息的結果。可以說,最大編碼率降低 (MCR2) 原理在精神上類似于認知科學中的“自由能最小化原理”(free energy minimization principle),后者試圖通過能量最小化為貝葉斯推理提供框架。但與自由能的一般概念不同,速率降低在計算上易于處理且可直接優化,因為它可以以封閉的形式表示。此外,這兩個原理的相互作用表明,正確模型(類)的自主學習應該通過對這種效用的閉環最大化博弈來完成,而不是單獨進行最小化。因此,他們相信,壓縮閉環轉錄框架為如何實際實施貝葉斯推理提供了一個新的視角。這個框架也被他們認為闡明了大腦使用的整體學習架構,可以通過展開優化方案來構建前饋段,且不需要通過反向傳播從隨機網絡中學習。此外,框架存在一個互補的生成部分,可以形成一個閉環反饋系統來指導學習。最后,框架揭示了許多對“預測編碼”大腦機制感興趣的神經科學家所尋求的難以捉摸的“預測錯誤”信號,這是一種與壓縮閉環轉錄產生共振的計算方案:為了讓計算更容易,應在表示的最后階段測量傳入和生成的觀測值之間的差異。
邁向更高層次的智能馬毅等人的工作認為,壓縮閉環轉錄與Hinton等人在1995年提出的框架相比,在計算上更易于處理和可擴展。而且,循環的學習非線性編碼/解碼映射(通常表現為深度網絡),本質上在外部無組織的原始感官數據(如視覺、聽覺等)和內部緊湊和結構化表示之間提供了一個重要的“接口”。不過,他們也指出,這兩個原理并不一定能解釋智能的所有方面。高級語義、符號或邏輯推理的出現和發展背后的計算機制仍然難以捉摸。直到今天,關于這種高級符號智能是可以從持續學習中產生還是必須進行硬編碼,仍然存在爭議。在三位科學家看來,諸如子空間之類的結構化內部表示是高級語義或符號概念出現的必要中間步驟——每個子空間對應一個離散的(對象)類別。如此抽象的離散概念之間的其他統計、因果或邏輯關系可以進一步簡化建模為緊湊和結構化(比如稀疏)圖,每個節點代表一個子空間/類別。可以通過自動編碼來學習圖形以確保自一致性。他們推測,只有在個體智能體學習的緊湊和結構化表示之上,高級智能(具有可共享的符號知識)的出現和發展才有可能。因此,他們建議,應該通過智能系統之間有效的信息交流或知識遷移來探索高級智能出現的新原理(如果高級智能存在的話)。此外,更高級別的智能應該與我們在本文中提出的兩個原理有兩個共同點:
可解釋性:所有原理都應該有助于將智能的計算機制揭示為白盒,包括可測量的目標、相關的計算架構和學習表示的結構。
可計算性:任何新的智能原理都必須在計算上易于處理和可擴展,可以通過計算機或自然物理實現,并最終得到科學證據的證實。
只有具備可解釋和可計算性,我們才能無需依賴當前昂貴且耗時的“試錯”方法來推進人工智能的進步,能夠描述完成這些任務所需的最少數據和計算資源,而不是簡單地提倡“越大越好”的蠻力方法。智慧不應該是最足智多謀的人的特權,在一套正確的原則下,任何人都應該能夠設計和構建下一代智能系統,無論大小,其自主性、能力和效率最終都可以模仿甚至超過動物和人類。本文僅做學術分享,如有侵權,請聯系刪文。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。