博客專欄

        EEPW首頁 > 博客 > AI都會和人類談判了?Meta AI最新研究登上Science,LeCun稱里程碑式成果

        AI都會和人類談判了?Meta AI最新研究登上Science,LeCun稱里程碑式成果

        發布人:傳感器技術 時間:2022-12-01 來源:工程師 發布文章

        AI都學會和人類談判了?還能成功說服人類聽它安排?


        話術一流到人類完全分辨不出它是AI。


        圖片

        這就是Meta AI的最新成果——AI模型CICERO(西塞羅),現已登上Science。


        圖片


        嗯,就是和古羅馬著名政治家、演說家西塞羅同名。


        研究人員讓這個AI西塞羅隱藏身份加入到一個外交游戲里,82名人類玩家在40場游戲中,都沒有懷疑過它其實是個AI。


        而且還戰績斐然,全程平均分達到25.8%,是人類玩家平均分的2倍,并且最終排名為前10%。


        成果一經發布,就在網上引發熱議。

        有人評價:這意味著AI在最具人類特點的游戲里戰勝人類,超乎想象…


        圖片


        LeCun都稱它為:里程碑式的研究!


        圖片


        目前,模型代碼已在GitHub上開源。


            真有AI縱橫家那感覺了


        AI嘮嗑其實一直都引人詬病,更別提外交這種需要超高話術的場景了。


        它需要理解對方的語言、動機,制定自己的話術策略,并調整好措辭。


        有時甚至還需要“耍心眼”,故意說一些假話給對方設套。


        這種超高難度任務,怎么挑戰?


        俗話說一口吃不成胖子。

        Meta AI就想到了先從游戲場景來切入(畢竟AI在玩游戲上是老手了)。


        不過和之前棋類或競技游戲不同,外交游戲并沒有那么強的規則性,運籌帷幄、隨機應變的環節不少。


        實驗中用到的游戲是webDiplomacy(以下用“外交游戲”指代它)。


        圖片


        這款游戲的背景是1901年的歐洲,7位玩家每人控制一個大國,通過相互合作、協商,盡可能地占領更多領土。


        西塞羅的核心是由一個對話引擎和一個戰略推理引擎共同驅動的。


        簡單理解,這里的對話引擎和GPT-3、LaMDA類似,戰略推理引擎和AlphaGo相近。


        圖片


        用到的對話模型,是從一個類似于2.7億參數的BART模型訓練而來。


        BART吸收了GPT和BERT各自的特點,它比BERT更適合文本生成的場景,還能雙向理解上下文語境信息。


        具體來看,研究人員先從互聯網上獲取文本訓練對話模型,然后再在實際的外交游戲場景中微調。


        戰略推理引擎用到的是一個規劃算法(planning algorithm)。


        該算法能夠基于現況計算出一個最優選擇。再通過強化學習訓練,懲罰模型做出的“不像人”的策略,以此讓模型給出的策略更合理。


        畢竟,在外交游戲中是和人打交道,讓AI更像人也是最基本的要求之一。


        而且強化學習這種迭代式的訓練,可以不斷改進AI做出的策略預測。比傳統方法中常用的監督學習(即打標簽的方式)效果更好。


        實操中,西塞羅首先會根據目前為止的游戲狀態和對話,對每個人的會采取的動作做一個初步預判。


        圖片


        接下來,在不斷地協商過程中,它都會不斷地改進預測,然后使用這些預測為自己和合作伙伴設置一個共同的目標。


        圖片


        其次,它會根據局勢狀態、對話及其目標,從對話模型中生成幾個候選消息,使用分類器等過濾機制過濾掉無意義的,生成最終的高質量輸出文本。

        圖片


        例如,以下圖為例,在這一局中,西塞羅扮演“奧地利”。


        當玩家“意大利”向它詢問意見,自己是否應該攻擊土耳其時,西塞羅會根據場上局勢——土耳其正在攻擊俄羅斯,判斷出這是一個兩面夾擊的好機會,然后勸意大利跟進攻打土耳其。


        這一步既建立了與意大利的伙伴關系,又消滅了一個潛在的對手。


        圖片


        不僅如此,談判也是西塞羅的拿手好戲。


        這次西塞羅扮演的是“德國”,與玩家“法國”一直在交戰。這時法國南部同時受到了意大利的攻擊,于是向西塞羅請求和談。


        西塞羅則趁機獅子大開口,要求法國歸還侵略的領土,并保證不攻擊荷蘭。雙方在討價還價中順利達成了協議。


        圖片


        就像上述展示的例子一樣,兩個月間,西塞羅共參與了40場外交游戲,與82名人類參賽者交鋒。


        在每場比賽中,西塞羅都會發送和接收平均130條消息。


        其游戲水平甚至強過了人類:平均得分是人類玩家的2倍以上,甚至在玩過一場以上游戲的參與者中也能排到前10% 。


        網友:雖然它表現好但我很害怕


        看完西塞羅在外交上的精彩表現,有網友感慨AI的發展速度:

        Deep Blue擊敗了卡斯帕羅夫,Watson擊敗了智力競賽的兩位人類冠軍,現在輪到Meta AI敲響馬基雅維利(近代政治思想奠基人)的大門了。


        還有人表示,這難道是邁向通識語言大模型的第一步嗎?


        LeCun給出了肯定回復:

        至少語言是基于事實的。

        圖片


        不過由于這款外交游戲以爾虞我詐著稱,不少人也對此表示擔憂:

        這是直接鼓勵研究人員開發更多擅長騙人的模型。


        圖片


        有網友就表示,玩這游戲甚至會失去朋友哦。


        圖片


        而從AI西塞羅的戰績來看,它可以迷惑人類玩家,并且說服人類聽從它的策略。


        所以有人就表示,這不是AI控制人類的選擇乃至生活?


        不過Meta AI表示,AI西塞羅不是全沒有失誤的。


        并且游戲中也還有很多需要和人類協作的環節,西塞羅的表現同樣很好。


        目前,它還只被放在游戲場景中測試過,并沒有嘗試過在開放語境下和人類談判。


        來源:量子位


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        EMC相關文章:EMC是什么意思


        低通濾波器相關文章:低通濾波器原理


        電容傳感器相關文章:電容傳感器原理
        雙絞線傳輸器相關文章:雙絞線傳輸器原理
        衰減器相關文章:衰減器原理


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 开鲁县| 长岛县| 高邮市| 含山县| 嘉义县| 蚌埠市| 桐柏县| 湘阴县| 四会市| 日土县| 天水市| 玉门市| 铜梁县| 福鼎市| 博湖县| 牟定县| 蕲春县| 青州市| 承德市| 德保县| 农安县| 鹤庆县| 正定县| 兴义市| 西青区| 黄冈市| 乐山市| 广元市| 台东县| 罗城| 蛟河市| 临朐县| 望江县| 莱阳市| 兴业县| 卫辉市| 嫩江县| 沈阳市| 清原| 毕节市| 醴陵市|