清華大學周伯文教授:從原則到實踐解讀多模態人工智能進展與可信賴AI
以人為中心的 AI 才是真正有活力的 AI。
在 WAIC 2022 AI 開發者論壇上,清華大學惠妍講席教授、IEEE/CAAI Fellow、銜遠科技創始人周伯文發表主題演講《多模態人工智能進展與可信賴 AI:從原則到實踐》。
在演講中,他主要介紹了多模態 AI 近期的突破以及可信 AI 的挑戰。目前人工智能正在從 “AI” 走向“可信賴 AI”。在全球范圍內,可信賴 AI 也正逐漸成為學術界和工業界研究和關注的熱點問題。但是,可信賴 AI 依然面臨很多問題。
以下為周伯文在 WAIC 2022 AI 開發者論壇上的演講內容,機器之心進行了不改變原意的編輯、整理:
非常感謝主辦方的邀請,今天有機會跟大家分享我在多模態人工智能進展的思考。
我們在用技術解決問題的時候,不僅要考慮到未來技術演進的路線,還要有技術信仰,因為解決當下問題的很可能是未來的技術。
1894 年的倫敦是一個人口密集的繁華大都市,同時也是世界貿易中心,這座城市的交通運輸卻完全依靠馬車。結果就是,直到 1894 年,數以萬計的馬生活在倫敦。據計算,每一匹馬每天都要制造 15 磅到 35 磅不等的糞便,這些糞便堆積在道路上,遠遠超過了清理速度。
英國的《泰晤士報》在 1894 年做出 “50 年內馬糞將淹沒倫敦” 這一警示預言,然而這一預言并未發生,因為到了 20 世紀初,問題突然就解決了——汽車出現了!很快馬車就被淘汰了,“馬糞危機”被完美地用另外一種方式解決了。
我從京東來到清華之后,建立了協同交互智能研究中心,研究的方向主要是智能體跟以人為中心的世界和環境交互的過程中,如何不斷迭代和自我學習,包括多模態表征、交互、推理,人機協同演繹,大小模型共同演化等各個方面。研究的核心基石是圍繞可信賴 AI 做設計。
今天的演講包括三部分,第一是多模態的進展。
1、多模態 AI 近期的突破
多模態在 AI 領域研究很久了,但是在過去幾十年都是相互分離的,每個方向有自己的模型,也不太溝通。但是最近幾年,我們越來越多看到大家在構建統一的、跨場景、多任務的多模態基礎模型。
比如 Omvivore 和 Data2vec 是 Facebook 近期的工作。前者采用統一的預訓練模型處理視覺 (圖片、視頻、3D 圖像) 三種模態的輸入, 并將其映射到統一的特征空間;后者采用統一的模型和訓練框架,分別訓練文本、圖像、語音的預訓練模型(不同模態分別訓練預訓練模型)。
Bridge-Tower(MSRA)提出了多模態預訓練模型新的特征融合方式,即在單模態表示學習的中間層也能進行跨模態的交互。其結構既能有效應對模態缺失的挑戰(相比單流預訓練模型),又能更好的學習模態的交互(相比雙流預訓練模型)。該多模態預訓練模型在多個單模態任務上取得了不錯的結果。
這三個模型反映了多模態預訓練的趨勢:設計統一的、跨任務、跨模態的多模態預訓練模型,包括統一的結構、統一的參數、統一的訓練方式,應對多個多模態任務或單模態任務。
多模態進展的第二個方向就是在下游任務中的自監督學習。通過構建自監督的任務,提高多模態模型的表征能力,緩解缺少大規模監督數據的挑戰。
多模態進展的第三個方向就是表征跟知識的融合開始再進一步拓展。大模型中有非常多隱性的知識,如何優化、迭代它們,都是非常重要的研究熱點,也是我們關注的方向。這里有幾個工作特別值得跟大家分享。
第一個是基于視覺的知識回答,融合 GPT3 導出的隱式知識和顯式外部知識,通過 Transformer 融合文本、圖像和知識的表示,執行基于知識推理的 VQA 任務。第二個是對于隱性知識的描述,根據圖片內容生成圖片描述,并推測圖片中發生的事件的原因,以文本的方式輸出可能的解釋。第三個是在電商領域做的工作,將商品屬性相關的結構化知識融入到電商多模態預訓練任務中。通過構建鏈接預測損失,建模結構化知識與多模態實體概念間的關聯。顯式 / 隱式地融入知識,強化模型的知識和推表征理能力,提高模型的可解釋性。
多模態人工智能另外一個方面的進展就是交互式 AI 將可能成為一種趨勢,傳統研究大多是 AI 模型與數據之間的交互,包括各種預訓練模型,本質上是學習互聯網上海量文本、圖片等不同模態數據的內在規律。
因算力、數據資源的限制,僅依賴互聯網上數據學習很大可能會達到瓶頸,而反觀人類往往能在交流中習得新的知識和技能,因此通過交互將有可能進一步提升 AI 的能力,包括模型之間的交互(通過梯度、模型參數甚至自然語言交流)、模型與人類的協同交互、模型與世界環境的交互等等。不管是孔子與七十二門徒還是西方的雅典學派,知識的傳播、形成、迭代都是通過老師和學生的互動來完成的,如何讓人工智能能夠自主學習并不斷迭代新的知識是我們在清華的重要研究方向。
此外,交互式 AI 也會面臨一些問題,包括數據和模型等方面的問題,比如 Meta Blenderbot 數據導致的倫理問題,以及 Google PaLM-SayCan 在真實世界中交互使用可能面臨模型可控性問題等。
Blenderbot3.0 對扎克伯格和 Yann LeCun 截然不同的評價,與 Facebook 中用戶的真實發帖對話有關。為了解決這種問題,Meta 采取用戶反饋進行在線的持續學習來調整模型。
基于大規模語言模型“大腦”(Pathways LM,PaLM),可以實現機器人在真實環境的指令執行操作,能夠達到非常好的效果。但也會衍生新的可控性問題,就如同“bull in china shop”(闖進瓷器店的公牛)。解決的辦法就是不斷給機器人反饋,讓其不斷學習、迭代,就跟小孩子一樣,小時候可能會打碎瓷器,但是慢慢地就能避免這個行為。
多模態的理解 + 交互式的學習和以人為中心的設計模式,未來的應用空間會越來越大。但在這個過程中也有很大的挑戰,就是如何讓 AI 的理解和執行更加可控,如何讓 AI 變得更可信賴。
2、可信賴 AI 落地面臨的挑戰
人工智能面臨諸多挑戰。在魯棒性層面,AI 面臨著多樣化的風險;在公平無偏層面,我們發現廣泛存在 AI 偏差的風險,比如谷歌的人臉識別和機器翻譯對性別的默認。還有消費互聯網推薦系統中的無偏挑戰,在用戶 - 數據 - 推薦系統的閉環里,用戶的行為會影響數據,數據會影響算法,如果數據不具有廣泛的代表性,這個算法會出現偏差,然后偏差會不斷放大,導致“馬太效應”。這就是人工智能落地發生的真實挑戰。
近年來,我們持續推動 “可信賴 AI” 的系統性建設。我在 IBM 的時候就推動可信賴人工智能的研究,雖然這幾年大家開始更多地提到可信賴 AI,但我早在 2016 年就在這方面做了一些探索,2019 年我在烏鎮互聯網大會就提出了可信賴 AI 的六個原則和要素:魯棒性、可解釋、可復制、公平、隱私保護、負責任和價值對齊。
2021 年 1 月,在瑞士達沃斯論壇上,我們和 MIT 專門做了人工智能的交流論壇,凝聚了全球的共識。最近的工作是剛剛一篇論文被 ACM Computing Surveys 錄用,這個論文把過去幾年可信賴 AI 在原則、實踐的技術進展做了梳理。接下來我把論文的主要思想和觀點跟大家做分享。
目前人工智能正在從 “可用 AI” 走向“可信賴 AI”;可信賴 AI 是未來人機協作的指導性原則,引導 AI 在協作中承擔更多的保障性任務。
人工智能一定具有社會屬性,所以技術挑戰帶來的社會屬性也會倒逼我們思考技術進步。由于時間關系,今天著重講一下可解釋性。
可解釋性的價值很容易理解。傳統的黑盒 AI 會給人們的使用造成困擾,比如對于模型的工作機理未知,不明白模型為什么預測這樣的結果;更不知道模型何時成功或者失敗;因此很難根據模型結果來糾正錯誤。而可解釋性 AI 模型,在做出決策的同時還能給出解釋,因此能夠讓使用者理解 AI 模型是如何做決策的,并在此基礎上針對錯誤的預測進行糾正。以人為中心的 AI 才是真正有活力的 AI。
梳理可解釋性 AI 方法的分類,可以把它分成設計可解釋模型 Ante-hoc 和解釋模型的行為 post-hoc,Ante-hoc 里面包括傳統模型和非傳統模型,傳統模型包括 KNN、決策樹,非傳統模型有因果推理、知識圖譜;post-hoc 里面包括模型相關型的解釋和模型無關型的解釋,模型相關型包括基于特征的重要性分析,和基于特征的語義分析,模型無關型包括解釋器模擬和樣例驅動。
Ante-hoc 可解釋模型方法,大家最信任的就是決策樹。挑戰在于,決策樹帶來的可解釋性雖然很好,但是模型的復雜度有上限。決策樹大到一定程度,雖然有局部的可解釋性,但是宏觀的可解釋性就丟失了。
正是因為這樣,post-hoc 是我個人比較喜歡的方向,它把模型的復雜度和可解釋性分成兩部分,舉一個例子就是 LIME。
LIME 是一種模型無關的局部解釋性方法。LIME 算法中,通過可解釋性模型 g(例如線性模型)在樣本 x 局部區域線性近似原始模型 f,學習一個線性分類模型進行解釋(對于線性模型的可解釋性約束仍然是個很難定量的決策)。
能夠使用線性分類模型進行局部模擬的原因在于:對于樣本 X,在其附近進行采樣,可以很容易使用一個線性決策面進行分類。進而來逼近原始模型,從而在 X 樣本處進行解釋(局部)。
這里展示一個郵件文本分類的例子,可以通過 LIME 算法對模型分類錯誤的原因進行可解釋性分析;使用 LIME 算法進行線性模擬之后,我們可以得到每個單詞在各類別中的權重,可以發現 Posting、Host 等類別無關的單詞影響了分類結果,而這些單詞應該是類別無偏的。
LIME 也存在一些缺陷,比如 X 的鄰域定義比較困難;后續提出的 SHAP 給出更合理的計算,采用博弈聯盟中 shapley 值進行建模,同時能夠給出正負權重。
基于注意力機制進行特征重要性分析,我們提出了 multi-hop attention 機制。
自注意力的可視化,以 Yelp 評論文本分類為例,一星和五星的評論在單詞重要性上存在明顯區別。
可解釋性的特征語義解釋方法,不僅僅尋求答案,而是把尋求為什么作為目標去訓練神經網絡。模型內部,在 MRC 任務給出答案支撐事實;模型外部,在 QA 任務中給出答案的推理過程,通過推理過程自洽性提高準確率。
3、可信賴 AI:A Wholistic View Is Needed
解讀可信賴 AI 我們提出了很多維度,包括魯棒性問題、領域遷移泛化性表示、基礎模型強泛化性,計算復雜性的泛化機理,可解釋性問題等等,這些雖然都是不同的維度,但是它們內在有非常強的關聯,關聯的核心來自于錯配。錯配包括兩個方面:一個是數據分布的錯配,另外一個是維度的錯配。這兩個錯配導致可信賴 AI 面臨很多問題。
機器學習,特別是深度學習分類模型的過程是將高緯度 (n) 數據通過 n-1 維決策面進行判別區分。實際研究對象其實只有 k 維,其中 k<<n。為了提高準確性,如 Adi Shamir 等的工作指出,我們的學習算法會強迫模型利用余下的 n-k 維,而這 n-k 維則帶來了一系列問題。
對抗樣本本身可以看做是數據分布外情形的特例,因此魯棒性某種意義上也是受制于有限數據分布自生限制;也就是說,大量冗余相關的特征關聯,會限制表示魯棒性;學習到存在眾多的虛假關聯,導致泛化性差;此外,由于虛假關聯特性,從而難以可解釋。
在全球范圍內,可信賴 AI 也正逐漸成為學術界和工業界研究和關注的熱點問題。可信賴 AI 所涵蓋涉及的問題復雜且多樣化,目前全球的 AI 從業者正從不同的角度對其開展了廣泛的研究。
原來我們的研究都是把每個維度單獨去研究,比如說做可信賴 AI,專門研究可解釋性,但是通過我們的深入,我們認為要從整體去看人工智能,單純一個維度一個維度地解決不是很好的辦法。可信賴 AI 的落地需要考慮各個維度的相互作用。這是第一個學術觀點。
第二個學術觀點,可信賴 AI 的落地需要跨領域的系統協作。可信賴 AI 是端到端的流程,僅僅關注算法是不夠的。比如在工業界,要做一個可信賴 AI 的系統,我們從用戶需求的調研和用戶問題的提出開始,就要思考這是不是可信賴 AI 的問題,再到數據的收集標注,算法設計,開發上線,最后到產品交付,保持用戶體驗,從工業角度來講,關注的是全部的流程,但是學術界更關注的是中間算法這部分,所以可信賴 AI 的落地需要學界、產業界和監管部門一起努力。
我們的研究方向在哪里,通過這張圖我們試圖去回答這個問題。這張圖有兩個維度,橫向列出了可信賴 AI 的八個原則,縱向講的是端到端有哪些環節,這個圖里面有不同的顏色,它們是不同領域的論文。學術界和工業界對可信賴 AI 的關注度和領域有很大的互補性,很多地方是空白的,這就是我們努力的方向。
以上就是我今天分享的內容,謝謝大家。我們銜遠科技(Frontis.cn)致力于通過以上介紹的各種新的技術去解決產業數智化轉型中的各種有趣且重要的問題,非常歡迎感興趣的朋友加入我們!
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。