DeepMind VS Meta:實現納什均衡理性最優解,還是多人非零和博弈算法更強大?
而它或將會和Meta家的AI產品Cicero展開競技,究竟是怎么回事呢?
編譯 & 整理 | 楊陽
出品 | AI科技大本營記得豆瓣高分電影《美麗心靈》中的約翰·納什嗎?
作為獲得諾貝爾經濟學獎的數學家,納什在博弈論、微分幾何學,以及偏微分方程等各個領域都作出卓越貢獻。為表彰他在非合作博弈理論中對均衡(納什均衡)的開創性分析,1994年瑞典中央****授予納什諾貝爾經濟學獎。
納什均衡在社科中的應用可謂成功,而在科技領域中,也經常引用博弈論的邏輯來進行技術實現,比如,通過密碼學和博弈論的結合實現大數據安全。當下,這一邏輯也開始應用在AI的算法上。DeepNash——DeepMind制造的最新款人工智能,它名字中的“Nash”即為紀念納什而命名。在AlphaGo之后,谷歌已降低在棋牌領域的關注,之所以推出DeepNash,在于借鑒納什均衡的邏輯設定基礎上,這款AI模型得以在西洋陸軍棋Stratego(策略)中擊敗專業玩家,這比在國際象棋、圍棋和****的比賽中擊敗人類更加困難。DeepNash是怎么做到的呢?超越圍棋的走法量,訴求“無模型”和強化學習
相較其他棋牌游戲,Stratego在規則上就包含了更多不確定性,包括玩家之間的信息非對稱。比如,象棋和圍棋的牌面和走位都是公開的,但Stratego的牌面卻是看不到的,這點和玩****一樣。另一方面,相較于圍棋只有一個初始定位,德州****有106個,而Stratego有驚人的超過1066個可以選擇的起始點。要知道,1066這個量級已經超過了宇宙中所有星辰的總量。
在博弈樹的算法統計量上,Stratego可能的走法達到不可思議的10535種,圍棋的這一數量為10360。
信息非對稱、路徑解極多,極度復雜性意味著通過通用的“蒙特卡洛樹”模型玩轉Stratego并不可行。DeepNash的研究者之一,DeepMind研究員Perolat表示:“那些適用于****的算法在Stratego中是完全行不通的,可能的結果量級太過龐大,因而非常復雜,信息的處理需要更為完備的方法。”
最終,團隊找到的方法是“無模型”強化算法,意味著在任何模型都無法實現精確模擬的情況下,讓DeepNash就像一個嬰兒或者一張白紙一樣進行從0開始的積累。但這使得預測變得困難,甚至完全不可能。
為了解決這個問題,團隊使用了深度強化學習為DeepNash提供動力源,目的是找到最優的納什均衡。
運用納什均衡,在信息不對稱中訴諸最優解強化學習算法如同“鋼鐵俠”,可以處理大規模數據量的問題,但牌面的信息不對稱又該如何解決?該DeepNash中“Nash”發揮作用了。納什均衡,也是非合作博弈均衡分析,社會學和經濟學專業學生對這個名詞非常熟悉。其中最著名的實驗就是后來經常應用在犯罪心理中的囚徒困境。這一理論給出的現實命題是:對于處于非合作博弈中的雙方,無論對方如何選擇,當事一方只有一種確定的策略對自己來說是最優解,因而兩方都會選擇自己的最優,最后達成彼此最優下的博弈均衡。比如,兩個共同犯罪的嫌疑人分別接受審訊,如果雙方都不坦白,兩人各自獲刑一年;其中只有一方坦白,坦白的無罪釋放,不坦白的獲刑十年;而如果雙方都坦白,各獲刑五年。在這個假想實驗中,都不坦白才是整體最優。然而,對于兩位囚徒來說,肯定都希望無罪釋放,而無論對方是否坦白,自己坦白都是理性最優解,所以最終的結果就是各獲刑五年。如果將納什均衡的邏輯放到DeepNash的算法設定中,游戲中互相看不到牌面的雙方就像囚徒困境中無法串通的兩個囚徒,彼此是非合作博弈。在信息不確定的情況下,只有走無論對方出什么牌“我”都是最優選的牌,才能確保在多輪博弈中獲勝。DeepNash獲得同類競技97%勝率納什均衡和加上強化學習,最終達成均衡下的最優解:通過“每位玩家獲得任何收益都會導致對手損失”的邏輯,憑借強化學習在游戲的每一步中計算下一步的最佳算法。就這樣,DeepNash開啟了自我對抗訓練。訓練的獎懲機制是:當DeepNash—A獲勝時,該網絡參數將會增強;同時,對手方DeepNash—B的參數將會被削弱。通過55億次的對弈,DeepNash取得了很好的成績,失誤率越來越小,無限接近納什均衡最優。在算法測試中,DeepNash以97%的勝率壓制了其他機器選手。而在Gravon游戲平臺上,通過和人類專業棋手進行兩周多的競技,DeepNash最終在有20年歷史的積分排名榜中升至第三位。除了學習能力驚人,DeepNash更讓人驚訝的地方在于,它在開局不會固定自己的起始位置,而是不斷優化起始點。這樣做究竟是隨機在10535種可能性中尋找最優解,還是“有意識”地避免對手對自己出牌套路的破解而故意為之,目前不得而知。如果是后者,就讓人不寒而栗了。不過,DeepNash確實會用一些看上去“誘騙”的方式來“引誘”對手落入陷阱,通過一些看似無意義(棋子重復跳動),或者犧牲高級棋子(讓對方放松警惕),從而進行伏擊。
加入非理性測算后的多方博弈
DeepNash確實相當厲害,但如果你仔細觀察也不難發現,納什均衡的狀態是發生在兩方之間的,而現實世界往往并非兩者的零和博弈。當博弈均衡需要發生在多方,又會呈現怎樣的態勢呢?對此,Meta AI研究員們的發明或許更具挑戰性:創建了能夠玩多方博弈游戲的AI模型——Cicero。在一款名為Diplomacy(外交風云)的游戲中,多個玩家每人代表一個國家,最多可以有7個玩家一起玩。游戲規則是進行軍隊和戰艦的戰略部署,從而獲得對供應中心的控制權。和DeepNash在Stratego中展現的非合作博弈下的純零和狀態不同,Cicero的博弈模式設定更加開放,包括每個玩家都可以私下進行交流和合作,而當合作博弈與非合作博弈都構建在多玩家的算法模型中時,預期結果更加不可控。Cicero的開發者之一Noam Brown表示說:“當你超越雙人的零和游戲時,納什均衡的概念對于與人類打好關系不再那么有用。”目前,Cicero已經在Diplomacy的125,261場游戲中進行了訓練,它的推理模塊(SRM)已經學會預測自身的狀態,包括其他玩家可能采取的策略。通過預測,SRM會選擇最佳的行動路徑,并向其擁有27億參數語言模型的對話模塊上發出意圖信號。在Brown看來,像Cicero這樣能夠與人類進行互動,并且可以對人類的非理性次優行為進行解釋的人工智能才能越來越接近現實世界,從而為未來的應用鋪平道路。他以智能駕駛舉例:“你不能設想道路上其他司機都是理性的。”
唯理派 PK 經驗論:哪個更接近現實?
在應用上,盡管DeepNash是為Stratego而開發的,但它的實際用途遠不止在游戲世界里“搗亂”。未來將會用在便利人們生活的各個方面,比如交通或者市場預測。和DeepNash一樣,Cicero未來也會應用于現實世界,“我們雖然有一只腳在游戲世界里,但現在我們也有一只腳在現實世界里。”對于DeepNash和Cicero,你認為它們哪個更可能實現在現實世界的落地呢?請留言投****。參考鏈接:https://singularityhub.com/2022/12/05/deepminds-latest-ai-trounces-human-players-at-the-game-stratego/https://www.nature.com/articles/d41586-022-04246-7
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
存儲器相關文章:存儲器原理