博客專欄

        EEPW首頁 > 博客 > 用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預(yù)測(cè)未來(2)

        用語言建模世界:UC伯克利多模態(tài)世界模型利用語言預(yù)測(cè)未來(2)

        發(fā)布人:機(jī)器之心 時(shí)間:2023-08-07 來源:工程師 發(fā)布文章
        HomeGrid 中的語言提示


        研究者引入了 HomeGrid 來評(píng)估一個(gè)環(huán)境中的智能體。在這個(gè)環(huán)境中,智能體除了任務(wù)指令外還會(huì)收到語言提示。
        HomeGrid 是一個(gè)具有指令和多樣化提示的具有挑戰(zhàn)性的視覺網(wǎng)格世界。HomeGrid 中的提示模擬了智能體可能從人類那里學(xué)到或從文本中獲取的知識(shí),提供了對(duì)解決任務(wù)有幫助但不是必需的信息:
        未來觀察:描述了智能體未來可能觀察到的情況,比如「盤子在廚房里」。

        圖片


        Correction:提供了基于智能體當(dāng)前行為的交互式反饋,比如「轉(zhuǎn)身」。
        圖片
        Dynamics:描述了環(huán)境的動(dòng)態(tài)變化,比如「踩踏板打開垃圾桶」。

        圖片


        HomeGrid 環(huán)境將與代碼一起發(fā)布,以鼓勵(lì)大家進(jìn)一步在這個(gè)方向上進(jìn)行研究。
        盡管智能體沒有明確地接受有關(guān)文本對(duì)應(yīng)于什么觀察結(jié)果的明確監(jiān)督,但 Dynalang 通過未來預(yù)測(cè)目標(biāo)學(xué)會(huì)了將各種類型的語言與環(huán)境相聯(lián)系。Dynalang 的性能優(yōu)于基于語言的 IMPALA 和 R2D2,這兩種方法在使用不同類型的語言上遇到困難,通常在超出指令范圍的語言任務(wù)上表現(xiàn)更差。
        圖片
        Messenger 中的游戲手冊(cè)
        研究者在 Messenger 游戲環(huán)境中進(jìn)行評(píng)估,以測(cè)試智能體如何從更長、更復(fù)雜的文本中學(xué)習(xí),這需要對(duì)文本和視覺觀察進(jìn)行多次推理。智能體必須對(duì)描述每個(gè)任務(wù)動(dòng)態(tài)的文本手冊(cè)進(jìn)行推理,并將其與環(huán)境中實(shí)體的觀察結(jié)果結(jié)合起來,以確定哪些實(shí)體應(yīng)該接收消息,哪些應(yīng)該避免。Dynalang 的表現(xiàn)優(yōu)于 IMPALA、R2D2 以及使用專門架構(gòu)對(duì)文本和觀察進(jìn)行推理的任務(wù)特定 EMMA 基線,特別是在最困難的第三階段。
        圖片

        圖片


        圖片


        圖片


        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 金川县| 罗城| 嘉义市| 荃湾区| 炎陵县| 河北区| 项城市| 遂川县| 墨脱县| 自贡市| 象山县| 会昌县| 历史| 萨迦县| 泰安市| 营口市| 晴隆县| 利辛县| 邛崃市| 安泽县| 隆子县| 晋中市| 平凉市| 乌拉特前旗| 潍坊市| 乐至县| 杭锦旗| 辽宁省| 长宁县| 通海县| 深水埗区| 大同市| 澜沧| 武乡县| 成安县| 普洱| 陆丰市| 龙山县| 晋城| 阜城县| 盐源县|