IJCAI 2021 | 一文了解微軟亞洲研究院機器學(xué)習(xí)方向前沿進展(1)
編者按:第30屆國際人工智能聯(lián)合大會 IJCAI 2021 于8月19日-26日在線上正式召開。此次大會共收到4204篇投稿,其中587篇論文被接收,接收率為13.9%。在本屆會議中,微軟亞洲研究院也有多篇論文入選,今天我們精選了其中的5篇來為大家進行簡要介紹。歡迎大家積極參與文末的投****活動,我們將邀請大家最感興趣的論文的作者進行深度講解,與大家線上交流!
01 利用獨立性的優(yōu)勢函數(shù)估計方法
論文鏈接:
https://www.ijcai.org/proceedings/2021/0461.pdf
在強化學(xué)習(xí)中,優(yōu)勢函數(shù) (advantage function) 普遍采用蒙特卡洛 (MC)、時間差分 (TD),以及一種將前兩者結(jié)合的優(yōu)勢函數(shù)估計算法(GAE) 等進行估計,而這些算法都存在方差較高的問題。因此,微軟亞洲研究院的研究員們首次提出通過利用環(huán)境中存在于當(dāng)前動作和未來狀態(tài)之間的獨立性,來降低優(yōu)勢函數(shù)估計中的方差。
在該方法中,存在于環(huán)境中的獨立性可以用來構(gòu)建一個基于重要性采樣 (importance sampling) 的優(yōu)勢函數(shù)估計量。該估計量可以忽略未來無關(guān)的部分獎勵,從而減小估計中的方差。為了進一步減少優(yōu)勢函數(shù)估計的方差,研究員們把該估計量和已有的蒙特卡洛估計量進行融合,并將最終的優(yōu)勢函數(shù)估計量命名為 IAE (Independence-aware Advantage Estimation)。實驗結(jié)果表明,在策略優(yōu)化算法中,IAE 與現(xiàn)有的優(yōu)勢函數(shù)估計方法 (GAE, MC) 相比,達到了更高的樣本利用率。
事實上,現(xiàn)有方法往往先估計值函數(shù) Q(s,a) 和 V(s),再將二者相減,進而估計優(yōu)勢函數(shù)。但當(dāng)值函數(shù)覆蓋的時間范圍較大時,估計值函數(shù)就需要考慮未來較長時間內(nèi)的總獎勵,因此導(dǎo)致了高方差的問題。
當(dāng)環(huán)境中存在獨立性時,優(yōu)勢函數(shù)的估計就不需要考慮環(huán)境中的部分獎勵,從而使得估計中的方差減小。舉個例子:假設(shè)智能體當(dāng)前的任務(wù)是打乒乓球,在該環(huán)境下,智能體每贏得一分或輸?shù)粢环趾螅螒虻臓顟B(tài)都會被重新設(shè)置到起始狀態(tài),并繼續(xù)進行下一輪游戲。當(dāng)對智能體每一個動作的優(yōu)勢函數(shù)進行估計時,由于智能體每個動作的影響都被限制在當(dāng)前回合內(nèi),所以下一輪及之后的獎勵實質(zhì)上不影響優(yōu)勢函數(shù)的估計。
上述例子表明,如果執(zhí)行當(dāng)前的動作不影響未來某些狀態(tài)的概率,那么這些未來狀態(tài)上的獎勵在估計優(yōu)勢函數(shù)時就可以被忽略。研究員們對上述觀察進行了概括和抽象,并提出了基于重要性采樣的優(yōu)勢函數(shù)估計量。下面給出的是基于重要性采樣推導(dǎo)出來的該估計量的形式:
此公式證明了如下的估計量是優(yōu)勢函數(shù)的無偏估計量:
在后續(xù)推導(dǎo)中,研究員們進一步將上述基于重要性采樣的估計量與基于蒙特卡洛的優(yōu)勢函數(shù)估計量進行結(jié)合,并通過優(yōu)化結(jié)合后估計量的方差,使優(yōu)勢函數(shù)估計的方差更小。同時,研究員們將組合后的優(yōu)勢函數(shù)估計量命名為 IAE,并在實驗中測量了 IAE 的估計性能。最后,研究員們還提出了上述公式中重要性采樣的概率比值的估計方法,并且還利用其對該概率比值進行了準(zhǔn)確的估計。
在 tabular 設(shè)置下,研究員們構(gòu)建了多種包含3個狀態(tài)的馬爾可夫決策過程 (MDP),并且在這些設(shè)置中包含了不同的轉(zhuǎn)移函數(shù)設(shè)置和不同的獎勵設(shè)置。研究員們比較了 IAE、蒙特卡洛、重要性采樣三種優(yōu)勢函數(shù)估計量在不同設(shè)置下的標(biāo)準(zhǔn)差,結(jié)果見表1。實驗結(jié)果表明,IAE 的估計量的標(biāo)準(zhǔn)差顯著小于蒙特卡洛和重要性采樣的估計量的標(biāo)準(zhǔn)差。
表1:不同設(shè)置下 IAE、MC、IS 的標(biāo)準(zhǔn)差
為了驗證 IAE 在策略優(yōu)化中的作用,研究員們將 IAE、蒙特卡洛、GAE 分別作為 PPO 算法中的優(yōu)勢函數(shù)估計方法,使用 PPO 算法進行策略優(yōu)化,并觀察不同優(yōu)勢函數(shù)估計方法在策略優(yōu)化中的性能。該實驗使用高維圖像作為狀態(tài),即智能體的策略和優(yōu)勢函數(shù)的估計均只使用圖像輸入。PPO 算法在不同優(yōu)勢函數(shù)估計方法下的訓(xùn)練曲線圖1,兩幅圖對應(yīng)于兩種不同的獎勵設(shè)置。實驗結(jié)果表明,IAE 作為優(yōu)勢函數(shù)估計算法時,策略優(yōu)化過程的樣本利用率更高。
圖1:PPO 算法在不同優(yōu)勢函數(shù)估計方法下的訓(xùn)練曲線
02 面向合作與非合作任務(wù)的多智能體強化學(xué)習(xí)方法MFVFD
論文鏈接:
https://www.ijcai.org/proceedings/2021/0070.pdf
多智能體強化學(xué)習(xí)(Multi-agent Reinforcement Learning, MARL) 有望幫助解決各種現(xiàn)實世界中的問題。然而,追求有效的MARL 面臨著兩大挑戰(zhàn):部分可觀察性和可擴展性限制。為了應(yīng)對這兩大挑戰(zhàn),并使得 MARL 適用于競爭任務(wù)、合作任務(wù)以及混合任務(wù),微軟亞洲研究院和北京大學(xué)的研究員們在中心訓(xùn)練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)的框架下,從個體值函數(shù)分解 (Value Function Decomposition,VFD)的角度,結(jié)合平均場理論(Mean Field Theory,共同提出了一種新穎的多智能體 Q 學(xué)習(xí)方法——MFVFD。
正所謂“非宅是卜,唯鄰是卜”,如果鄰里和睦,則利人利己;而鄰里不和,則多是非。也就是說,在多智能體系統(tǒng)中,個體不僅要考量最大化自身的利益,也要考量其臨近智能體的行為對齊本身的影響。比如,在足球環(huán)境中,球員射門得分與否,除去依賴球員個體自身的射門能力之外,還會受到近鄰智能體的影響,即優(yōu)秀的隊友與糟糕的對手會促進得分,而糟糕的隊友和優(yōu)秀的對手則會阻礙得分。
為了研究多智能體如何在既有合作又有競爭的環(huán)境下的表現(xiàn),研究員們基于平均場理論將個體在多智能體系統(tǒng)中基于全局信息的動作值函數(shù),近似為基于局部信息估計的個體動作值函數(shù)與基于近鄰信息的平均場影響函數(shù)的和,公式如下:
其中,Q_LOC^i 為基于局部信息的個體 i 的動作值函數(shù),用于動作選擇;Q_MF^i 為基于近鄰信息的平均場影響函數(shù),用于輔助對 Q_LOC^i 的估計。考慮到智能體不同近鄰的重要性不同,所以研究員們使用注意力機制(Attention)建立了單體與近鄰的權(quán)重 λ^i (o^i,o^k,a^i,a^k),并基于此計算帶有重要性權(quán)重的近鄰觀測分布 μ_o (o^(-i) ) 和動作分布 μ_a (a^(-i) ) ,以構(gòu)建平均場影響函數(shù) Q_MF^i。
圖2:MFVFD 網(wǎng)絡(luò)結(jié)構(gòu)圖
在主試驗部分,研究員們選取了 MAgent Battle 任務(wù),對 MFVFD 在具有大規(guī)模智能體且具有部分觀測的限制下的性能進行了驗證。在該任務(wù)中,紅藍雙方各具有400個智能體,每個智能體具有局部觀測,且無法通訊,其通過消滅敵人來獲得獎勵。由于每個智能體以優(yōu)化各自的獎勵為目標(biāo),所以單體會與同伴競爭殺敵數(shù)量,來獲取更多的個人獎勵。除此之外,單體還會與同伴配合避免被殺害,以消滅所有敵人獲取更多的團隊獎勵。因此,這是一個合作和競爭混合的復(fù)雜任務(wù)。如圖3所示,MFVFD(紅色)與基線方法的(藍色)相比,學(xué)會了更難的團體配合的圍殲策略,取得了勝利。從對抗勝率上可以看出,MFVFD 在所有的基線方法中,幾乎處于不敗地位。
圖3:MFVFD 與基線方法相比
此外,研究員們還選取了三個任務(wù)對 MFVFD 方法進行了理論分析,分別是:重復(fù)矩陣博弈任務(wù)----鷹鴿博弈與非單調(diào)合作博弈;合作導(dǎo)航任務(wù)----Cooperative Navigation;交通任務(wù)----Traffic Benchmark。從長遠來看,MFVFD 在實際環(huán)境中能夠有實際可行的研究價值。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。