Gato之后,谷歌也推出「通才型」智能體Multi-Game Decision Transformers
在強化學習領域,「大力出奇跡」行得通?
在自然語言處理、計算機視覺和二者的交叉領域中,通過訓練大量與任務無關的數據集,建立大規模的通用模型來解決許多任務,已經成為主流方法。這些模型可以適應新的任務(例如翻譯) ,利用不相關的數據(例如使用高資源語言來改進低資源語言的翻譯) ,甚至可以通過將圖像投影到語言空間來納入新的模式。
這些方法的成功很大程度上來自于可擴展模型架構、大量未標注的任務無關數據以及高性能計算基礎設施的不斷改進。至關重要的是,標度律表明,規模帶來的性能提升尚未達到飽和點。
在最近的一項工作中,谷歌研究院的成員們提出,類似的進展在強化學習領域是可能發生的,并且他們采取可擴展的方法的初步步驟,生成了表現優越的通才型智能體。與視覺和語言領域相反,強化學習通常倡導使用更小的模型,模型也通常用于解決單一任務,或在同一環境中的多個任務。重要的是,跨越多種環境的訓練的研究數量并不多,很少有人研究橫跨不同動力學、獎勵、視覺效果和智能體實施方式的東西。
論文鏈接:https://arxiv.org/pdf/2205.15241.pdf
具體地說,研究者調研了是否可以從大量的專家和非專家經驗中訓練一個單一的模型(具有單一的一組參數)在多種環境中行動。他們在一組 41 個 Atari 游戲上進行訓練,用來滿足多樣性方面的要求,并提出了一個問題:「模型能從玩很多視頻游戲的過程中學到一些通用的東西嗎?」
為了訓練這個模型,研究者只使用了先前從 Agarwal et al. [1]中收集到的軌跡,但是交互式地評估了本研究的智能體。研究者表示,他們并不是在追求特定游戲智能體所能達到的精通程度或效率,因為這項研究仍處于早期階段。相反,他們要探索的是,在語言和視覺領域觀察到的相同趨勢,是否也適用于大規模的通才型強化學習?
研究發現,在對離線專家數據集和非專家數據集進行訓練之后,智能體可以在所有游戲中同時達到人類級別性能的 126%,如圖 1 所示。此外,研究者還發現了與語言和視覺領域相似的趨勢:用很少的數據快速適應從未見過的游戲(第 4.5 節) ,性能和模型大小之間的冪律關系(第 4.4 節) ,以及為更大的模型提供更快的訓練進度。
值得注意的是,并非所有現有的多環境訓練方法都有效。他們研究了幾種方法,包括將問題處理為基于離線決策 Transformer 的序列建模 [14,34]、在線 RL [51]、離線時間差分方法[41]、對比表征[54] 和行為克隆[58]。
研究者發現,基于決策 Transformer 的模型在多環境下提供了最好的性能和擴展特性。然而,為了實現對專家和非專家軌跡的訓練,有必要使用從語言建模引導生成技術來生成專家級別的動作,這與標準的決策 Transformer 有很大的不同。
實驗
為了回答一系列假設提問,研究者進行了多項實驗,如下:
不同的在線和離線方法在多博弈體制中的表現如何?
研究比較了多博弈機制和單游戲機制下不同在線和離線算法,發現單游戲專家模型仍然是最高效的。在多博弈通用模型中,多博弈決策 Transformer 模型最接近專家性能,多博弈在線 RL 與非 Transformer 模型排在第二位,而離線非 Transformer 模型很難獲得好的表現。
可以注意到,多博弈在線 C51 DQN 中位數得分為 68% (附錄 D) ,這與多博弈 Impala 中位數得分為 70% 的得分相似,這是根據 [20] 報告的結果計算得出的。
不同的方法如何與模型尺寸相比較?
在大型語言和視覺模型中,最低可實現的訓練損失通常隨著模型大小的增加而可預測地減少。Kaplan et al. [37]證明了一個語言模型的容量 (next-token 自回歸生成模型的 NLP 術語) 與其性能之間的經驗冪律關系(在對抗數據上的負對數似然)。這些趨勢在許多數量級的模型尺寸中得到了驗證,包括從幾百萬參數的模型到數千億參數的模型。
研究者調查了交互式游戲中的表現是否存在類似的趨勢(而不僅僅是訓練損失),并顯示類似的冪律性能趨勢,如圖 5(a)。多博弈決策 Transformer 的性能實現了兩個數量級的增加,而其他方法要么飽和,要么性能增長緩慢得多。他們還發現,較大的模型訓練更快,在觀察相同數量的 token 后,能達到更高的游戲性能。附錄 G 中進一步討論了這些結果。
不同的方法轉換到新游戲的效果如何?
盡管雅達利游戲是一項自然而且動機良好的任務,但是由于它與人類如何將知識轉移到新游戲的相關性問題,對于快速適應新游戲的預訓練還沒有被廣泛探討。Nachum 和 Yang 針對 Atari 的大型離線數據和小型專家數據進行了預訓練,并與基于互模擬的一系列狀態表征學習目標進行了比較,但是他們的預訓練和微調使用的是同一個游戲。相反,本文研究者感興趣的是經過訓練的智能體遷移到新游戲的能力。
圖 6 展示了對抗游戲中的微調性能。帶有 DT 目標的預訓練在所有游戲中表現最好,所有預訓練的方法都比從零開始的訓練有效,這證實了本研究的假設,即針對其他游戲的預訓練確實有助于智能體快速學習一項新游戲。CPC 和 BERT 的表現不如 DT,這表明僅僅學習狀態表征不足以達到理想的遷移效果。雖然 ACL 為 BERT 增加了一個動作預測輔助損失,但效果不明顯,這表明在離線數據上正確建模動作對于獲得良好的傳輸性能非常重要。此外,研究者還發現微調性能會隨著 DT 模型變大而提高,而 CQL 微調性能與模型大小并不一致(參見圖 5b)。
多博弈決策 Transformer 是否改進了訓練數據?
研究者想要評估的是,帶有專家行動推理的決策 Transformer 是否能夠超越最好的演示在訓練中展現的能力。為了做到這一點,研究者看了表現 top 3 的決策 Transformer 模型的 rollout。他們使用了 top 3 的 rollout,而不是所有 rollout 的平均值,以更公平地比較最好的演示,而不是一個普通的專家演示。圖 7 中展示了對比單個游戲的最佳演示得分提高的百分比,在一些比賽中,實現了訓練數據的顯著改善。
最佳行為推理是否改進了行為克隆?
圖 8 展示了所有游戲得分的平均值和標準差。雖然行為克隆有時可能會產生高回報的 episode,但這種情況此時不太可能發生。研究者發現,在 41 個游戲中,有 31 個游戲的決策 Transformer 的性能優于行為克隆。
專家和非專家數據混合訓練是否比僅專家訓練更有益?
與從專家示范中學習相比,從包括一些專家數據但主要是非專家數據的大型多樣化數據集中學習有助于學習和提高性能。為了驗證這個假設,研究者根據 episodic returns 過濾了每個游戲的訓練數據,并且只保留前 10% 的軌跡,以生成一個專家的數據集 (詳情見附錄 E)。他們使用了這個專家數據集來訓練多博弈決策 Transformer(DT-40M) 和基于 Transformer 的行為克隆模型(BC-40M)。圖 9 比較了這些模型訓練的專家數據和 DT-40M 訓練的所有數據。
使用 Transformer 架構有什么好處?
決策 Transformer 是一個 Upside-Down RL (UDRL)實現,它使用 Transformer 體系架構,并將 RL 視為序列建模問題。為了理解 Transformer 體系架構的好處,研究者將其與使用前饋、卷積 Impala 網絡的 UDRL 實現進行比較。
圖 10 展示了使用 Impala 架構的決策 Transformer 相對于 UDRL 的明顯優勢。在比較 UDRL (Impla)和 CQL (在評估的每個模型尺寸上使用相同的 Impla)時,可以觀察到 UDRL (impla)優于 CQL。結果表明,本文方法的好處不僅來自于使用的網絡架構,同時來自于 UDRL 公式。
盡管由于設計空間的因素,將 Transformer 與所有可能的卷積架構進行比較是不可行的,但研究者相信這些經驗性的結果仍然顯示了一個明顯的趨勢,對于 UDRL 和 Transformer 架構都是有益的。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。