博客專欄

        EEPW首頁 > 博客 > NeurIPS 2022 | 一窺人工智能大一統與理論研究的最新進展(1)

        NeurIPS 2022 | 一窺人工智能大一統與理論研究的最新進展(1)

        發布人:MSRAsia 時間:2022-11-21 來源:工程師 發布文章
        編者按:作為目前全球最負盛名的人工智能盛會之一,NeurIPS (Conference on Neural Information Processing Systems) 在每年年末都是計算機科學領域矚目的焦點。被 NeurIPS 接收的論文,代表著當今神經科學和人工智能研究的最高水平。今年的 NeurIPS 大會將于11月28日至12月9日舉行,本屆大會共收到10411篇有效投稿,其中2672篇獲接收,最終接收率為25.6%。相比去年,投稿數量繼續增加。
        在本屆大會中,微軟亞洲研究院也有諸多論文入選,內容主要涵蓋人工智能五大熱點話題:人工智能走向大一統、計算機理論、賦能產業界的人工智能、負責任的人工智能、人工智能賦能內容與設計生成。在接下來的幾周里,我們將按話題與大家分享相關領域的學術最前沿!今天,讓我們先從“人工智能走向大一統”和“計算機理論”話題下的8篇論文精華開始。
        歡迎參與文末投****,選出你最想看的論文直播!


        圖片

        人工智能走向大一統

        The Big Convergence of AI



        01

        針對強化學習的掩碼隱空間重建


        圖片


        論文鏈接:

        https://www.microsoft.com/en-us/research/publication/mask-based-latent-reconstruction-for-reinforcement-learning/


        視覺狀態表征的質量對基于視覺的強化學習(vision-based reinforcement learning)至關重要。為了學習高效的狀態表征,微軟亞洲研究院的研究員們創新性地將基于掩碼的建模技術(mask-based modeling)應用到強化學習中,以促進其狀態表征學習。此前基于掩碼的建模技術已經在 CV 和 NLP 領域中大放異彩,而這項工作是將其應用到強化學習領域幫助策略學習的首次探索。


        具體地,研究員們提出了一種簡單而有效的自監督方法,即基于掩碼的隱空間重建 (mask-based latent reconstruction,簡稱為 MLR)。MLR 通過從具有時空掩碼的視覺狀態中預測其在隱空間中的完整表征,從而使神經網絡在學習狀態表征時能夠更好地利用上下文信息,編碼更多策略學習所需要的語義信息。大量基準實驗表明,MLR 顯著提高了強化學習算法的樣本效率(sample efficiency),在多個連續和離散的強化學習環境中取得了 SOTA 的性能。


        圖片

        圖1:基于掩碼的隱空間重建(MLR)的框架示意圖


        02

        基于滑動語言模型的句子評分轉換器


        圖片


        論文鏈接:

        https://www.microsoft.com/en-us/research/publication/transcormer-transformer-for-sentence-scoring-with-sliding-language-modeling/


        句子評分旨在評估一個句子的最大似然估計,被廣泛應用于許多自然語言任務的場景中,包括重排序、語言可接受性等。過去用于解決句子評分的工作主要以兩種經典語言模型為主:因果語言模型(causal language modeling, CLM)和掩碼語言模型(masked language modeling, MLM)。然而,這些工作都存在一定的瓶頸:CLM 雖然只需要計算一次但卻只利用了單向信息;MLM 能夠利用雙向語義,但每次只能預測部分單詞而不得不需要多次推理。


        因此,微軟亞洲研究院的研究員們提出了一種基于滑動語言模型的 Transformer 模型 Transcormer,并在其中設計了一種三流自注意力機制用于維護滑動語言模型。利用這樣的設計,Transcormer 可以確保模型能夠利用雙向信息進行預測的同時,只需一次計算即可得到所有單詞的概率。滑動語言模型在計算句子評分時,Transcormer 還可以避免 CLM 只能利用單向信息的缺點以及 MLM 需要多次計算的不足。實驗結果表明,Transcormer 在句子評分任務上能夠取得比其他方法更好的結果。


        圖片

        圖2:Transcormer 結構示意圖:左側為前向流,右側為后向流,中間為詢問流。其中,前向流用于收集前向語義,后向流用于收集后向語義,而詢問流用于捕獲當前位置在其之前的前向流語義和其之后的后向流語義


        03

        周邊視覺注意力網絡


        圖片


        論文鏈接:

        https://www.microsoft.com/en-us/research/publication/peripheral-vision-transformer/


        人類擁有周邊視覺這種特殊的視覺處理系統。具體來說,我們的整個視野可以根據到凝視中心的距離被劃分為多個輪廓區域,而周邊視覺使我們能夠感知不同區域的各種視覺特征。受該生物學啟發,微軟亞洲研究院的研究員們開始探索在深度神經網絡中模擬周邊視覺進行視覺識別的方法。


        研究員們所設計的 PerViT 網絡,可以將輪廓區域通過位置編碼結合到多頭自注意力機制中,使網絡掌握如何將視野劃分為不同輪廓區域的方法,并能夠從不同區域中提取相應的特征。研究員們系統地研究了機器感知模型的內部工作原理,發現網絡學習感知視覺數據的方式與人類視覺相似。在 ImageNet-1K 上對 PerViT 網絡評估的結果顯示,PerViT 在不同模型大小上的圖像分類性能均優于基線,證明了該方法的有效性。


        圖片

        圖3:人類周邊視覺(上)與基于注意力的神經網絡(下)相結合以進行視覺識別的示意圖


        04

        VRL3:由數據驅動的視覺深度強化學習框架


        圖片


        論文鏈接:

        https://www.microsoft.com/en-us/research/publication/vrl3-a-data-driven-framework-for-visual-deep-reinforcement-learning/


        在強化學習,尤其是機器人系統的訓練中,新數據樣本的采集往往十分昂貴。為了實現經濟,高效,服務于大眾的泛用性強化學習和機器人技術,研究員們嘗試結合利用多種數據來源,大幅提高訓練效率。研究員們設計了一個全新的數據驅動的學習框架 VRL3。VRL3 使用了三階段的訓練方式,整合了非強化學習的大規模圖像數據集,有限的人類專家示范以及在線強化學習數據,并加以充分利用,其可在基于視覺輸入的深度強化學習任務尤其是模擬機器人任務上,以驚人的樣本效率進行學習。


        相比之前的最先進方法,在極富挑戰性的 Adroit 機械手基準測試中最難的任務上,VRL3 可極其顯著地將樣本效率提高24倍,并以10倍更快計算速度和3倍更少參數需求完成訓練。在達到極高性能的同時,VRL3 追求大道至簡的設計理念,用簡單易懂的設計思路和代碼實現。這項研究向實現高效、便攜、低成本可廣泛服務于大眾的強化學習和機器人系統邁出了關鍵一步。


        圖片

        圖4:VRL3 模型設計圖



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        單片機相關文章:單片機教程


        單片機相關文章:單片機視頻教程


        單片機相關文章:單片機工作原理


        網線測試儀相關文章:網線測試儀原理


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 福泉市| 云安县| 团风县| 临澧县| 永康市| 本溪市| 黄骅市| 凉城县| 钦州市| 新河县| 大荔县| 禹州市| 泽普县| 公安县| 贺州市| 大同县| 巴彦县| 玛曲县| 安新县| 漠河县| 文成县| 灵川县| 长乐市| 安龙县| 黔西县| 行唐县| 阿克陶县| 平阳县| 靖安县| 甘洛县| 浙江省| 枞阳县| 广河县| 萨迦县| 沛县| 策勒县| 左云县| 常熟市| 安福县| 阿图什市| 兴化市|