圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(1)
本文經授權轉自公眾號騰訊科技(ID:qqtech)
2023年6月9日的北京智源大會上開幕式上,機器學習三巨頭之一楊立昆(Yann Lecun)進行了遠程致辭,發表了名為《朝向能學習, 思考和計劃的機器進發》( Towards Machines that can Learn, Reason, and Plan)的演講。
作為一個從ChatGPT誕生之日起就對它嘲諷連連,認為它沒有什么新意。在今天的講座中,身處凌晨4點巴黎的楊立昆依然斗志滿溢,在演講中拿出了他反擊GPT的邏輯:自回歸模型根本不行,因為它們沒有規劃,推理的能力。單純根據概率生成自回歸的大語言模型從本質上根本解決不了幻覺,錯誤的問題。在輸入文本增大的時候,錯誤的幾率也會成指數增加。
目前流行的AutoGPT,LOT之類看起來可以拆解任務,分步解釋復雜問題的語言拓展模型讓大語言模型看起來有了規劃能力。對此楊立昆也反唇相譏,認為那不過是它們在借助搜索和其他工具來讓自己看起來可以做到規劃和推理而已,完全不是靠自身對世界的理解。
性能驚人,但使用范圍狹窄。完全不如人類智能,而且存在著無法解決的Bug。這就是楊立昆對當前人工智能的判斷。
那想要通向AGI,人工智能的下一步在哪里呢?
楊立昆給出的答案是世界模型。一個不光是在神經水平上模仿人腦的模型,而是在認知模塊上也完全貼合人腦分區的世界模型。它與大語言模型最大的差別在于可以有規劃和預測能力(世界模型),成本核算能力(成本模塊)。
通過世界模型,它可以真正的理解這個世界,并預測和規劃未來。通過成本核算模塊,結合一個簡單的需求(一定按照最節約行動成本的邏輯去規劃未來),它就可以杜絕一切潛在的毒害和不可靠性。
但這個未來如何實現?世界模型如何學習?楊立昆只給了一些規劃性的想法,比如還是采用自監督模型去訓練,比如一定要建立多層級的思維模式。他也承認之前并沒有深度學習的訓練做到了這些,也沒人知道怎么做。
來自清華大學的朱軍教授看著這個模型估計是有點發懵,這個架構太像傳統人工智能的那種符號學派的理想模型了。在問答環節還問了一句有沒有考慮符號學派和深度學習結合的可能。
這個曾經挑戰明斯克符號主義統治十幾年,在無人認可之時仍堅持機器學習之路的楊立昆的回答很簡單:“符號邏輯不可微,兩個系統不兼容”。
以下為騰訊新聞編輯整理的楊立昆報告核心發言及與朱軍教授全部QA的實錄:
機器學習的缺陷
我要說的第一件事是:與人類和動物相比,機器學習不是特別好。幾十年來,我們一直在使用監督式學習,這需要太多的標簽。強化學習效果不錯,但需要大量的訓練來學習任何東西。當然,近年來,我們一直在使用大量的自我監督學習。但結果是,這些系統在某個地方不太專精,而且很脆弱,它們會犯愚蠢的錯誤,它們不會真正地推理,也不會計劃。當然它們的反應確實非常快。而當我們與動物和人類進行比較時,動物和人類可以極其迅速地做新的任務,并理解世界是如何運作的,可以推理和計劃,他們有某種程度的常識,而機器仍然沒有。而這是在人工智能的早期就發現的問題。
這部分是由于目前的機器學習系統在輸入和輸出之間基本上有恒定數量的計算步驟。這就是為什么它們真的不能像人類和一些動物那樣推理和計劃。那么,我們如何讓機器理解世界是如何運作的,并像動物和人類那樣預測其行為的后果,可以進行無限步數的推理鏈,或者可以通過將其分解為子任務序列來計劃復雜的任務?
這就是我想問的問題。但在說這個問題之前,我先談一下自我監督學習,以及在過去幾年里它確實已經占領了機器學習的世界。這一點已經被倡導了相當長的時間,有七八年了,而且真的發生了,我們今天看到的機器學習的很多結果和成功都是由于自監督學習,特別是在自然語言處理和文本理解和生成方面。
那么,什么是自監督學習?自監督學習是捕獲輸入中的依賴關系的想法。因此,我們不是要把輸入映射到輸出。我們只是被提供了一個輸入。在最常見的范式中,我們蓋住一部分輸入,并將其提供給機器學習系統,然后我們揭示輸入的其余部分,然后訓練系統來捕捉我們看到的部分和我們尚未看到的部分之間的依賴關系。有時是通過預測缺失的部分來完成,有時不完全是預測。
而這一點在幾分鐘內就能解釋清楚。
這就是自我監督學習的理念。它被稱為自我監督,因為我們基本上使用監督學習方法,但我們將它們應用于輸入本身,而不是與人類提供的單獨輸出相匹配。因此,我在這里展示的例子是一個視頻預測,你向一個系統展示一小段視頻,然后你訓練它來預測視頻中接下來會發生什么。但這不僅僅是預測未來。它可能是預測中間的那種數據。這種類型的方法在自然語言處理方面取得了驚人的成功,我們最近在大型語言模型中看到的所有成功都是這個想法的一個版本。
好的,所以我說,這種自我監督的學習技術包括輸入一段文本,刪除該文本中的一些單詞,然后訓練一個非常大的神經網絡來預測缺失的那個單詞。在這樣做的過程中,神經網絡學會了一個良好的內部表征,可用于隨后的一些監督任務,如翻譯或文本分類或類似的東西。因此它已經取得了令人難以置信的成功。同樣成功的是生成式人工智能系統,用于生成圖像、視頻或文本。在文本的情況下,這些系統是自回歸的。們使用自我監督學習的訓練方式不是預測隨機缺失的單詞,而是只預測最后一個單詞。因此,你拿出一個詞的序列,遮住最后一個詞,然后訓練系統預測最后一個詞。
它們不一定是詞,而是子詞單位。一旦系統在大量的數據上進行了訓練,你就可以使用所謂的自回歸預測,這包括預測下一個標記,然后將該標記轉移到輸入端,然后再預測下一個標記,然后將其轉移到輸入,然后重復這個過程。因此,這就是自回歸LLMs,這就是我們在過去幾個月或幾年中看到的流行模型所做的。其中一些來自我在Meta的同事,在FAIR、BlenderBot、Galactica和Lama,這是開源的。斯坦福大學的Alpaca,是在Lama基礎上的改進。Lambda,谷歌的Bard,DeepMind的Chinchilla,當然還有OpenAI的Chet、JVT和JVT4。如果你在類似一萬億文本或兩萬億文本上訓練它們,這些系統的性能是驚人的。
但最終,他們會犯非常愚蠢的錯誤。他們會犯事實錯誤、邏輯錯誤、不一致的問題。他們的推理能力有限,會使用毒化的內容,他們對潛在的現實沒有知識,因為他們純粹是在文本上訓練的,這意味著人類知識的很大一部分是他們完全無法接觸到的。而且他們無法真正規劃他們的答案。關于這一點有很多研究。然而,這些系統對于寫作輔助工具以及生成代碼,幫助程序員編寫代碼,效果都驚人的好。
所以你可以要求他們用各種語言寫代碼,而且效果很好。它會給你一個很不錯的起點。你可以要求他們生成文本,他們同樣可以闡釋或說明故事,但這使得該系統作為信息檢索系統或作為搜索引擎或如果你只是想要事實性的信息,并不是那么好。因此,它們對于寫作幫助、初稿的生成、統計數字方面是很有幫助的,特別是如果你不是你所寫語言的母語者??紤]到最近發生的事兒,他們不適合制作事實性和一致性的答案,因此他們必須為此進行再訓練。而他們在訓練集中可能會有相關的內容,這就保證了他們會有正確的行為。
然后還有一些問題,如推理、計劃、做算術和諸如此類的事情(他們都不擅長),為此他們會使用一些工具,如搜索引擎計算器數據庫查詢。因此,這是目前一個非常熱門的研究課題,即如何從本質上讓這些系統調用工具(來完成他們不擅長的事情),這就是所謂的擴展語言模型。而我和我在FAIR的一些同事共同撰寫了一篇關于這個話題的評論文章,關于正在提出的各種擴展語言模型的技術:我們很容易被它們的流暢性所迷惑,以為它們很聰明,但它們其實并不那么聰明。他們在檢索記憶方面非常出色,大約是這樣。但同樣,他們對世界如何運作沒有任何了解。自回歸模型還有一種重大缺陷。如果我們想象所有可能的答案的集合:所以輸入詞組的序列,是一棵樹,在這里用一個圓圈表示。但它實際上是一棵包含所有可能的輸入序列的樹。在這棵巨大的樹中,有一個小的子樹,對應著對所給提示的正確答案。如果我們設想有一個平均概率e,即任何產生的標記都會把我們帶到正確答案的集合之外,而產生的錯誤是獨立的。那么xn的答案正確的概率是1-e的n次方。
這意味著有一個指數級發散的過程會把我們帶出正確答案的序列樹。而這是由于自回歸預測過程造成的。除了讓e盡可能的小之外,沒有辦法解決這個問題。因此,我們必須重新設計系統,使其不會這樣做。而事實上,其他人已經指出了其中一些系統的局限性。因此,我與我的同事吉格多-布朗寧共同寫了一篇論文,這實際上是一篇哲學論文,他是一位哲學家,這篇論文是關于只使用語言訓練人工智能系統的局限性。
事實上,這些系統沒有物理世界的經驗,這使得它們(的能力)非常有限。有一些論文,或者是由認知科學家撰寫的,比如左邊這個來自麻省理工學院小組的論文,基本上說與我們在人類和動物身上觀察到的相比,系統擁有的智能是非常有限的。還有一些來自傳統人工智能的研究者的論文,他們沒有什么機器學習的背景。他們試圖分析這些機器學習系統的規劃能力,并基本上得出結論,這些系統不能真正規劃和推理,至少不是以人們在傳統人工智能所理解的那種方式搜索和規劃。那么,人類和動物是如何能夠如此迅速地學習的呢?我們看到的是,嬰兒在出生后的頭幾個月里學習了大量的關于世界如何運作的背景知識。他們學習非?;镜母拍睿缥矬w的永久性,世界是三維的這一事實,有生命和無生命物體之間的區別,穩定性的概念,自然類別的學習。以及學習非?;镜臇|西,如重力,當一個物體沒有得到支撐,它就會掉下來。根據我的同事埃馬紐埃爾-杜普繪制的圖表,嬰兒大約在九個月大的時候就學會了這個。
因此,如果你給一個五個月大的嬰兒看,這里左下方的場景,一輛小車在平臺上,你把小車從平臺上推下來,它似乎漂浮在空中,五個月大的嬰兒不會感到驚訝。但是10個月大的嬰兒會非常驚訝,像底部的小女孩一樣看著這一幕,因為在此期間,他們已經知道物體不應該停留在空中。他們應該在重力作用下墜落。因此,這些基本概念是在生命的頭幾個月學到的,我認為我們應該用機器來復制這種能力,通過觀察世界的發展或體驗世界來學習世界如何運作。那么,為什么任何青少年都可以在20個小時的練習中學會開車,而我們仍然至少在沒有大量的工程和地圖以及激光雷達和各種傳感器的情況下,不會有完全可靠的5級自動駕駛。所以很明顯,自回歸系統缺少一些很重要的東西。為什么我們有流暢的系統,可以通過法律考試或醫學考試,但我們卻沒有可以清理餐桌和裝滿洗碗機的家用機器人,對嗎?這是任何10歲的孩子都可以在幾分鐘內學會的事情,而我們仍然沒有機器可以近似的做這些事。因此,我們顯然缺少一些極其重要的東西。在我們目前擁有的人工智能系統中,我們遠遠沒有達到人類水平的智能。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。