博客專欄

        EEPW首頁 > 博客 > AI從System 1邁向System 2重要一步,中科院自動化所探索物體動靜態物理屬性,入選AAAI和ICLR

        AI從System 1邁向System 2重要一步,中科院自動化所探索物體動靜態物理屬性,入選AAAI和ICLR

        發布人:機器之心 時間:2022-03-19 來源:工程師 發布文章
        研究者開發的框架可以根據視頻輸入發現物體的動態和靜態物理屬性,進而推理時序物理事件以及預測未來視頻幀。


        圖片


        人類感知和理解周圍環境通常要借助于物理常識:直覺物理 (Intuitive Physics),這種常識的建立從嬰兒時期就已開始,依托于對物體物理屬性 (object-centric representation) 的探索和理解,比如物體的大小、形狀、質量、材料、運動速度等。
        對于深度神經網絡而言,模型缺乏像人類一樣以自監督的方式去將場景里的物體拆分表示以更好地理解場景的能力:無法將紅色、綠色、黃色等屬性正確地分配給所屬物體,缺少屬性與物體之間的對應關系,而這種理解場景的方式對于抽象常識的建立以及因果關系的發現十分重要。 

        圖片


        通過對輸入的觀測分離表示場景中各個物體的靜態屬性,進一步借助物理事件推斷物體的動態物理屬性 可以賦予模型類人的物理常識,從而更好地理解場景以處理更為上層的任務:因果推理、決策、規劃等。
        中科院自動化所 2035 創新團隊基于不同的視角提出兩種因果關系與物理屬性發現框架,在視頻預測、反事實預測、視頻推理多個基準數據集取得優異的性能。相關工作先后被 AAAI2022 及 ICLR2022 接收。 
        用于反事實預測的物理動力學解混雜(AAAI 2022)

        圖片


        研究背景
        發現潛在的因果關系是推理周圍環境和預測物理世界未來狀態的基礎能力。基于視覺輸入的反事實預測根據過去未出現的情況推斷未來狀態,是因果關系任務中的重要組成部分。現有研究方法缺乏對因果鏈的深入挖掘,致使不能夠有效建模物體之間的關聯并估測動力學系統中的物理屬性。
        方法概述
        對此,團隊研究了物理動力學中的混雜影響因子,包括質量、摩擦系數等,建立干預變量和未來狀態可能改變變量之間的關聯關系,提出了一種包含全局因果關系注意力(GCRA)和混雜因子傳輸結構(CTS)的神經網絡框架。

        圖片

        圖 1:整體網絡架構。
        GCRA 尋找不同變量之間的潛在因果關系,通過捕獲空域和時序信息來估計混雜因子,確保模型能夠有效建模長距離跨幀物體之間的關聯。CTS 以殘差的方式整合和傳輸學習到的混雜因子,利用空序信息加強層,時序信息聚合層以及時空信息傳輸層來高效編碼和利用混雜因子信息和物體狀態信息,進而加強反事實預測的能力。
        實驗證明,在混雜因子真實值未知的情況下,本文的方法能夠充分學習并利用混雜因子形成的約束,在相關數據集的預測任務上取得了目前最優的性能,并可以較好地泛化到新的環境,實現良好的預測精度

        圖片

        圖 2:在不同數據集上的反事實預測效果。

        基于物體動態特征蒸餾的場景分解與表示(ICLR 2022)

        圖片


        論文地址:https://openreview.net/forum?id=1iWoD04yVZU
        研究背景
        從生成模型的角度來說,已有的一些方法可以通過 VAE 框架對簡單場景中的每個物體進行解耦表示,包括物體的形狀、大小、位置等靜態物理屬性,這種對場景中不同物體的分離并解耦的表示方式對于下游任務有著很大的促進作用,增強模型對場景的理解和推理能力。
        但是,此類方法大多關注圖像輸入,即便是對于視頻輸入也要分解為對單幀圖像的分別處理,由于缺乏物理事件的引入,物體的動力學屬性(運動方向、速度等)無法被網絡學習并編碼。
        方法概述
        團隊提出物體動態特征蒸餾網絡 (Object Dynamic Distillation Network,ODDN)。

        圖片

        圖 3:ODDN 網絡框架。
        對于視頻輸入:

        • 基于 VAE 架構的編碼器分解每幀圖像的場景為多個物體,并將物體的靜態物理屬性解耦表示,以****重建為原圖作為監督;

        • 通過 Transformer 的架構自適應匹配不同幀的物體靜態物理表示,并根據這個不同幀物體表示的差 異性通過一個前向網絡蒸餾出物體的動態特征;

        • 結合編碼器編碼的物體靜態物理屬性以及蒸餾網絡蒸餾得到的物體動態物理屬性,顯式的建模物體對之間的交互作用以更新每個物體的動態表示。每個物體更新后的動態表示和靜態表示預測下一幀的物體狀態并解碼為下一幀圖像。 


        實驗結果
        以動態屬性作為額外的物體表示在 CLEVER 數據集 (基于物理事件推理、問答) 取得了 SOTA 的效果,表明物體的動態屬性對于視頻理解和推理很有幫助,這個結果也符合物理常識。 
        圖片
        此外,ODDN 顯式建模了物體間的交互,結合生成模型,賦予了模型直接預測未來視頻幀的能力。團隊在 CLEVRER 以及 Real Tower 數據集上做了視頻預測的實驗,結果表明在多物體場景 ODDN 的預測精度優于現階段其他方法,尤其是包含物理事件 (碰撞、相互作用力) 的場景。 


        圖片圖 4:基于輸入的兩幀預測后續視頻幀效果對比。
        相比于 Baseline 模型,ODDN 最核心的改進是引入了的物體運動相關的線索,這不僅使得模型在其場景表征以及視頻預測能力獲益,還改善了其圖像重建以及自監督分割的性能,主要表現在物體與物體之間分的更開,細節刻畫更為精細。

        圖片

        圖 5:分割與重建性能對比。
        可視化表明,ODDN 自適應學習推理得出的物體動態物理屬性編碼了物體在不同方向的運動速度,驗證了模型發現物理屬性的解耦性。

        圖片

        圖 6:動態物理屬性解耦可視化:基于給定兩幀預測第三幀,調節物體屬性值會改變其對應方向的速度值。

        未來展望
        人類對物理世界的常識、語言、交互和認知通常以物體為基本單位,所以一種自監督的以物體為中心的表示非常有意義。目前相關的工作都關注在簡單的 toy 場景,團隊希望未來會有在復雜真實場景有效分割表示場景的方法出現。另外,團隊希望把以物體為中心的表示做到解耦合,并在此基礎上進一步探索場景中物體與事件的因果關系,相信這是現階段人工智能從 System 1 邁向 System 2 的重要一步。



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 福建省| 石首市| 绵阳市| 伽师县| 淄博市| 醴陵市| 内江市| 巴彦淖尔市| 双江| 曲阳县| 中宁县| 濮阳市| 泸溪县| 辉南县| 抚顺县| 宜都市| 淮安市| 徐州市| 霍林郭勒市| 大宁县| 古浪县| 石嘴山市| 德昌县| 隆回县| 怀远县| 东台市| 秭归县| 新宾| 平安县| 乐安县| 南开区| 漳平市| 岑巩县| 孝义市| 无为县| 兴宁市| 南和县| 太谷县| 五大连池市| 赫章县| 万宁市|