博客專欄

        EEPW首頁 > 博客 > 用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預測未來(2)

        用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預測未來(2)

        發(fā)布人:機器之心 時間:2023-08-07 來源:工程師 發(fā)布文章
        HomeGrid 中的語言提示


        研究者引入了 HomeGrid 來評估一個環(huán)境中的智能體。在這個環(huán)境中,智能體除了任務指令外還會收到語言提示。
        HomeGrid 是一個具有指令和多樣化提示的具有挑戰(zhàn)性的視覺網(wǎng)格世界。HomeGrid 中的提示模擬了智能體可能從人類那里學到或從文本中獲取的知識,提供了對解決任務有幫助但不是必需的信息:
        未來觀察:描述了智能體未來可能觀察到的情況,比如「盤子在廚房里」。

        圖片


        Correction:提供了基于智能體當前行為的交互式反饋,比如「轉身」。
        圖片
        Dynamics:描述了環(huán)境的動態(tài)變化,比如「踩踏板打開垃圾桶」。

        圖片


        HomeGrid 環(huán)境將與代碼一起發(fā)布,以鼓勵大家進一步在這個方向上進行研究。
        盡管智能體沒有明確地接受有關文本對應于什么觀察結果的明確監(jiān)督,但 Dynalang 通過未來預測目標學會了將各種類型的語言與環(huán)境相聯(lián)系。Dynalang 的性能優(yōu)于基于語言的 IMPALA 和 R2D2,這兩種方法在使用不同類型的語言上遇到困難,通常在超出指令范圍的語言任務上表現(xiàn)更差。
        圖片
        Messenger 中的游戲手冊
        研究者在 Messenger 游戲環(huán)境中進行評估,以測試智能體如何從更長、更復雜的文本中學習,這需要對文本和視覺觀察進行多次推理。智能體必須對描述每個任務動態(tài)的文本手冊進行推理,并將其與環(huán)境中實體的觀察結果結合起來,以確定哪些實體應該接收消息,哪些應該避免。Dynalang 的表現(xiàn)優(yōu)于 IMPALA、R2D2 以及使用專門架構對文本和觀察進行推理的任務特定 EMMA 基線,特別是在最困難的第三階段。
        圖片

        圖片


        圖片


        圖片


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 永康市| 焦作市| 东辽县| 山阴县| 青州市| 东阳市| 志丹县| 宜都市| 托里县| 嘉兴市| 定兴县| 新安县| 旬邑县| 策勒县| 仙居县| 兴文县| 和田市| 岚皋县| 新竹市| 台安县| 东辽县| 台湾省| 措勤县| 哈密市| 循化| 吉林市| 荣成市| 宁都县| 东平县| 威宁| 二连浩特市| 扬州市| 海城市| 福贡县| 鄂伦春自治旗| 喀喇| 增城市| 彭水| 天气| 株洲县| 西昌市|