博客專欄

        EEPW首頁 > 博客 > 圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(2)

        圖靈獎得主楊立昆:GPT模式五年就不會有人用了,世界模型才是AGI未來(2)

        發布人:AI科技大本營 時間:2023-06-20 來源:工程師 發布文章

        機器學習的未來挑戰


        那么,我們要如何做到這一點呢?事實上,我已經有點確定了未來幾年人工智能的三大挑戰:

        學習世界表征及預測的模型。最好是使用自我監督學習。

        學習推理:這與心理學的想法相對應,例如丹尼爾-卡漢曼的想法,即系統2與系統1。因此,系統1是對應于潛意識計算的人類行動或行為,是你不假思索做的事情。然后系統2是你有意識地做的事情,你使用你的全部思維能力。而自回歸模型基本上只做系統1,根本就不太聰明。

        最后一件事是通過將復雜的任務分解成簡單的任務,分層地推進和規劃復雜的行動序列。

        圖片

        然后,大約一年前,我寫了一篇愿景論文,我把它放在公開評論中,請你們看看。這基本上是我對我認為人工智能研究在未來10年應該走向的建議。它是圍繞著這樣一個想法,我們可以把各種模塊組織到所謂的認知架構中,在這個系統中的核心是世界模型。

        世界模型:通往AGI之路

        世界模型是系統可以用來基本上想象一個場景的東西,想象將會發生什么,也許是其行為的后果。因此,整個系統的目的是根據它自己的預測,使用它的文字模型,找出一連串的行動,以最小化一系列的成本。成本你可以認為是衡量這個代理人的不適程度的標準。順便說一下,這些模塊中的許多在大腦中都有相應的子系統。成本模塊是我們(大腦里)的世界模型——前額葉皮層,短期記憶對應著海馬體;行為者可能是前運動區;感知系統是大腦的后部,所有傳感器的感知分析都在這里進行。

        圖片這個系統的運作方式是通過它可能被儲存在記憶中的以前對世界的想法,去處理當前世界的狀態。然后你用世界模型來預測如果世界接著運轉繼會發生什么,或者它作為代理將采取的行動的后果是什么。這是在這個黃色的行動模塊里面。行動模塊提出一連串的行動。世界模型模擬世界并計算出這些行動的后果會發生什么。然后計算出一個成本。然后將要發生的是,系統將優化行動序列,以便使世界模型最小化。

        所以我應該說的是,每當你看到一個箭頭朝向一個方向時,你也有梯度在向后移動。所以我假設所有這些模塊都是可分的,我們可以通過反向傳播梯度來推斷行動序列,從而使成本最小化。這不是關于參數的最小化——這將是關于行動的最小化。這是對潛在變量的最小化。而這是在推理時進行的。

        因此,有兩種真正的方式來使用該系統。它類似于系統1,我在這里稱之為模式1,基本上它是反應性的。系統觀察世界的狀態,通過感知編碼器來運行它,生成一個世界狀態的概念,然后直接通過策略網絡來運行它,而行為者只是直接產生一個行動。

        模式2是你觀察世界并提取世界狀態的表征為0。然后,系統想象出從a[0]到一個很長T(時間)的一系列行動。這些預測的狀態被送入一個成本函數,而系統的整個目的基本上是找出行動的序列,根據預測使成本最小。因此,這里的世界模型在每個時間步驟中重復應用,本質上是從時間T的世界表征中預測出時間T+1的世界狀態,并想象出一個擬議的行動。這個想法非常類似于優化控制領域的人們所說的模型預測優化。在深度學習的背景下,有許多使用這個想法來規劃軌跡工作的模型被提出來過。

        圖片這里的問題是我們到底如何學習這個世界模型?如果你跳過這個問題,我們期望做的是一些更復雜的版本,我們有一個分層系統,通過一連串的編碼器,提取世界狀態的更多和更抽象的表示,并使用不同層次預測器的世界模型,在不同的擾動水平預測世界的狀態,并在不同的時間尺度上進行預測。在這里的較高層次是指舉例來說,如果我想從紐約去北京,我需要做的第一件事就是去機場,然后搭飛機去北京。因此,這將是計劃的一種高層次的表示。最終的成本函數可以代表我與北京的距離,比如說。然后,第一個行動將是:去機場,我的狀態將是,我在機場嗎?然后第二個行動將是,搭飛機去北京。我怎么去機場呢?從,比方說,我在紐約的辦公室。我需要做的第一件事是,到街上去攔一輛出租車,并告訴他去機場。我如何走到街上去?我需要從椅子上站起來,我去出口處,打開門,走到街上,等等。然后你可以這樣想象,把這個任務一直分解到毫秒級,按毫秒級控制,你需要做的就是完成這個規模。

        因此,所有復雜的任務都是以這種方式分層完成的,這是一個大問題,我們今天不知道如何用機器學習來解決。所以,我在這里展示的這個架構,還沒有人建立它。沒有人證明你可以使它發揮作用。所以我認為這是一個很大的挑戰,分層規劃。

        成本函數可以由兩組成本模塊組成,并將由系統調制以決定在任何時候完成什么任務。所以在成本中有兩個子模塊。有些是那種內在的成本,是硬性規定的、不可改變的。你可以想象,那些成本函數將實施安全護欄,以確保系統行為正常,不危險,無毒等等。這是這些架構的一個巨大優勢,即你可以在推理的時候把成本進行優化。

        圖片


        你可以保證那些標準,那些目標將被強制執行,并將被系統的輸出所滿足。這與自回歸LLM非常不同,后者基本上沒有辦法確保其輸出是好的、無毒的和安全的。


        圖片

        楊立昆 X 朱軍 QA 環節


        朱軍:

        你好,LeCun教授。很高興再次見到你。那么我將主持問答環節。首先再次感謝你這么早起來做了這個富含思想的研討會報告,并提供了這么多見解。考慮到時間的限制,我選擇了幾個問題來問你。

        正如你在演講中討論到生成型模型有很多問題,大多數我都同意你的看法,但是關于這些生成式模型的基本原則方面,我還是有一個問題要問你。生成模型就其定義來說,就是會輸出多種的選擇。另外,當我們應用生成模型的多樣性時,創造性是一個理想的屬性。所以我們經常樂見用模型來輸出多樣化的結果。這是否意味著實際上像事實錯誤或不合邏輯的錯誤,不一致的地方,對于這樣的模型來說是不可避免的?因為在很多情況下,即使你有數據,數據也可能包含了矛盾的事實。你也提到了預測的不確定性。所以這是我的第一個問題。那么你對此有什么想法?

        楊立昆:

        沒錯。所以我不認為自回歸預測模型、生成模型的問題是可以通過保留自回歸生成來解決的。我認為這些系統本質上是不可控的。因此,我認為它們必須被我提出的那種架構所取代,即在推理中包含時間,有一個系統去最優化成本和某些標準。這是使它們可控、可引導、可計劃的唯一方法,即系統將能夠計劃出它們的答案。你知道當你在做一個像我剛才那樣的演講時,你會計劃演講的過程,對嗎?你從一個點講到另一個點,你解釋每個點。當你設計演講時,你在腦子里會計劃這些,而并不是(像大語言模型一樣)一個字接一個字地即興演講。也許在較低的(行為)水平上,你是即興創作,但在較高的(行為)水平上,你是在計劃。所以,計劃的必要性真的很明顯。而人類和許多動物有能力進行規劃的事實,我認為這是智力的一個內在屬性。所以我的預測是,在相對較短的幾年內--當然是在5年內--沒有腦子正常的人會接著用自回歸LLM。這些系統將很快被拋棄。因為它們是無法被修復的。

        朱軍:

        好的。我想另一個關于控制的問題:在你的設計和框架中,一個關鍵部分是內在成本模塊,對嗎?所以它的設計基本上是為了決定代理人行為的性質。看了你的工作文件中的開放性觀點后,我和網上的一個評論有共同的擔憂。這個評論說,主要是這個模塊沒有按照規定工作。也許代理最后[屏幕凍結]了。

        楊立昆:

        保證系統安全的成本模塊不會是一個微不足道的任務,但我認為這將是一個相當明確的任務。它需要大量仔細的工程和微調,其中一些成本可能要通過訓練獲得,而非僅僅通過設計。這與強化學習中的策略評估(Actor-Crtic結構中的Ctric,對作為語言模型的行為者產出的結果進行評估)或LLM背景下的所謂獎勵模型是非常相同的,是一個會整體考量系統的內部狀態到成本全程的事情。你可以訓練一個神經網絡來預測成本,你可以通過讓它接觸大量的——讓它產生大量的輸出,然后讓某人或某物對這些輸出進行評價來訓練它。這給了你一個成本函數的目標。你可以對它進行訓練,讓它計算出一個小的成本,然后在得到成本之后通過它進行反向傳播,以保證這個成本函數得到滿足。所以,我認為設計成本這事兒,我認為我們將不得不從設計架構和設計LLM的成本轉向設計成本函數。因為這些成本函數將推動系統的性質和行為。與我的一些對未來比較悲觀同事相反,我認為設計與人類的價值觀相一致的成本(函數)是非常可行的。這不是說如果你做錯一次,就會出現人工智能系統逃脫控制和接管世界的情況。而且我們在部署這些東西之前,會有很多方法把它們設計得很好。

        朱軍:

        我同意這一點。那么另一個與此相關的技術問題是,我注意到你通過分層的JEPA設計來模型,這其中幾乎所有的模塊都是可微的,對嗎?也許你可以用反向傳播的方法來訓練。但是你知道還有另外一個領域,比如說符號邏輯,它代表著不可微的部分,也許在內在成本模塊中能以某種形式制定我們喜歡的約束條件,那么,你是否有一些特別的考慮來連接這兩個領域,或者干脆就忽略符號邏輯的領域?

        楊立昆:

        對。所以我認為是的,現實中是有一個神經+符號架構的子領域,試圖將可訓練的神經網絡與符號操作或類似的東西結合在一起。我對這些方法非常懷疑,因為事實上符號操作是不可微的。所以它基本上與深度學習和基于梯度的學習不兼容,當然也與我所描述的那種基于梯度的推理不兼容。所以我認為我們應該盡一切努力在任何地方使用可微分的模塊,包括成本函數。現在可能有一定數量的情況下,我們可以實現的成本(函數)是不可微的。對于這一點,執行推理的優化程序可能必須使用組合型的優化,而不是基于梯度的優化。但我認為這應該是最后的手段,因為零階無梯度優化比基于梯度的優化要少很多。因此,如果你能對你的成本函數進行可微調的近似,你應該盡可能地使用它。在某種程度上,我們已經這樣做了。當我們訓練一個分類器時,我們想要最小化的成本函數并不完全準確。但這是不可微分的,所以我們使用的是一個可微分的成本代理。是系統輸出的成本熵與所需的輸出分布,或像e平方或鉸鏈損失的東西。這些基本上都是不可微分的二進制法則的上界,我們對它不能輕易優化。因此還是用老辦法,我們必須使用成本函數,它是我們實際想要最小化的成本的可微調近似值。

        朱軍:

        我的下一個問題是,我的靈感來自于我們的下一位演講者Tegmark教授,他將在你之后做一個現場演講。實際上我們聽說你將參加一場關于AGI的現狀和未來的辯論。由于我們大多數人可能無法參加,你能否分享一些關鍵點給我們一些啟發?我們想聽到一些關于這方面的見解。

        楊立昆:

        好的,這將是一場有四位參與者的辯論。辯論將圍繞一個問題展開,即人工智能系統是否會對人類造成生存風險。因此,馬克斯和約書亞本吉奧將站在 "是的,強大的人工智能系統有可能對人類構成生存風險 "的一方。然后站在 "不"的一方的將是我和來自圣菲研究所的梅蘭妮-米切爾。而我們的論點不會是AI沒有風險。我們的論點是,這些風險雖然存在,但通過仔細的工程設計,很容易減輕或抑制。我對此的論點是,你知道在今天問人們,我們是否能保證超級智能系統對人類而言是安全,這是個無法回答的問題。因為我們沒有對超級智能系統的設計。因此,在你有基本的設計之前,你不能使一件東西安全。這就像你在1930年問航空工程師,你能使渦輪噴氣機安全和可靠嗎?而工程師會說,"什么是渦輪噴氣機?" 因為渦輪噴氣機在1930年還沒有被發明出來。所以我們有點處于同樣的情況。聲稱我們不能使這些系統安全,因為我們還沒有發明它們,這有點為時過早。一旦我們發明了它們--也許它們會與我提出的藍圖相似,那么就值得討論。"我們如何使它們安全?",在我看來,這將是通過設計那些使推理時間最小化的目標。這就是使系統安全的方法。顯然,如果你想象未來的超級智能人工智能系統將是自回歸的LLM,那么我們當然應該害怕,因為這些系統是不可控制的。他們可能會逃脫我們的控制,胡言亂語。但我所描述的那種類型的系統,我認為是可以做到安全的。而且我非常肯定它們會。這將需要仔細的工程設計。這并不容易,就像在過去七十年里,使渦輪噴氣機變得可靠并不容易一樣。渦輪噴氣機現在令人難以置信的可靠。你可以用雙引擎飛機跨越大洋,而且基本上具有這難以置信的安全性。因此,這需要謹慎的工程。而且這真的很困難。我們大多數人都不知道渦輪噴氣機是如何設計成安全的。因此,想象一下這事情這并不瘋狂。弄清楚如何使一個超級智能的人工智能系統安全,也是很難想象的。

        朱軍:

        好的。謝謝你的洞察和回答。同樣作為工程師,我也再次感謝你。非常感謝。

        楊立昆:

        非常感謝你。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 临沭县| 中阳县| 古浪县| 潜山县| 江安县| 淮阳县| 肃宁县| 灵川县| 二连浩特市| 古交市| 涟源市| 普洱| 定兴县| 平顶山市| 五华县| 安龙县| 且末县| 全椒县| 金寨县| 确山县| 南安市| 庐江县| 河北省| 陵水| 博白县| 和平区| 江北区| 乐陵市| 甘南县| 彭阳县| 抚州市| 文安县| 浏阳市| 杭锦旗| 米脂县| 昆山市| 越西县| 汉中市| 鄂托克旗| 永嘉县| 江达县|