博客專欄

        EEPW首頁 > 博客 > TPAMI 2021|聽聲識物:視音一致性下的視覺物體感知

        TPAMI 2021|聽聲識物:視音一致性下的視覺物體感知

        發布人:機器之心 時間:2022-03-08 來源:工程師 發布文章
        該研究由中國人民大學GeWu實驗室主導,發表在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),目前相關代碼已開源。


        隨著互聯網的發展,在能夠輕易獲取海量數據但標注困難的背景下,無監督學習的重要性不斷上升并在近年得到了廣泛關注。其中,如何能夠讓機器以無監督的方式建立對客觀物體的認知是亟待解決的問題之一。
        在人類的實踐經驗中,出色的多重感官讓我們對周圍的環境能夠做出快速而準確的判斷。根據有關研究表明,人類通過視覺和聽覺獲取了大腦從外界所接收信息的絕大部分(約占 90% 以上)。視覺,聽覺,及其相互之間的關聯關系在我們對外界的認知過程中起著至關重要的作用。例如,當在音樂廳享受音樂時,無論是悠揚的弦樂組,還是渾厚的管樂組,甚至藏在角落的三角鐵,只要聽到了聲音,我們就可以毫不費力地判斷出是哪個樂器在舞臺的哪個角落奏鳴。這是因為一個我們在小時候學到的物理現象:聲音是由物體振動產生的,那么不同樂器因為其所具有的不同的振動頻率,導致其所發出的音色是不同的,而不同的聲色幫助我們區別并認識不同的樂器。
        由此可見,物體與其所發出聲音之間的天然對應關系為模型的訓練提供了自監督信號。并且,大部分物體在視覺和聽覺上均具有類間差異大而類內差異小的物理性質。這一物理性質為模型通過表征聚合等方式習得類別判別能力提供了實際基礎。基于這一現象,在該研究中,作者首先對復雜場景下的多聲源定位任務進行了定義,為模型引入類別判別能力。再則,借助判別性聲源定位任務實現對不同類別物體的認知,在無需人為標注的情況下,為解決典型視覺任務,如物體檢測,提供了新思路。
        引言
        在該研究中,作者以判別性聲源定位為基礎實現了構建物體類別認知的目標,并將其應用在其他經典視覺任務中,如物體檢測。聲源定位任務的目標為:輸入一段視頻及其對應的音頻(一般指單通道音頻),模型能夠定位出畫面中發聲物體的位置。先前的聲源定位任務所涉及的場景相對較單一,主要聚焦在單聲源或具備先驗知識(如畫面中物體均發聲且個數已知)的多聲源場景中。但在現實生活中,如雞尾酒會,不僅常常同時具備多個物體,而且發聲與不發聲物體往往交織在一起。此外,現有聲源定位工作僅停留在對發聲物體的定位上,而缺乏在發聲物體的類別判別方面的探索。因此,該研究希望在無需額外先驗知識的情況下解決更加貼近生活場景的包含不發聲物體的判別性多聲源定位任務。

        圖片

        圖 1 真實的多聲源場景常常包含多種物體且存在不發聲物體。
        該研究的貢獻和創新點可以總結為以下幾個方面:

        • 受人類視音感知能力的啟發,提出了判別性多聲源定位任務:不僅定位出發聲物體的位置而且辨別其類別。

        • 提出了兩階段的學習框架。在單聲源場景中學習物體的視音表征,并遷移至多聲源場景下解決包含不發聲物體的判別性多聲源定位任務。

        • 通過解決判別性聲源定位任務構建對不同類別物體視覺表征的認知,并將其遷移到其他經典視覺任務中,如物體檢測等。


        圖片


        論文鏈接:https://ieeexplore.ieee.org/document/9662191

        項目主頁:

        https://gewu-lab.github.io/CSOL_TPAMI2021/


        方法

        圖片

        圖 2 一階段 - 單聲源定位框架。
        首先,由于判別性多聲源定位是相對困難的任務,該研究提出按照從易到難,逐步遷移的思路。從單聲源定位任務開始,通過在簡單的場景下對物體的視覺表征有一定認知之后,遷移到更為復雜的多聲源場景中。根據聲音是由物體的振動產生的這一規律可知,視覺和聽覺之間天然存在著一一對應關系,已有許多先前的研究利用該視音一致性作為自監督信號對網絡進行預訓練。在聲源定位,特別是單聲源定位任務中,借助視音一致性自監督信號能夠以判斷輸入的音頻和視頻信號是否匹配作為目標進行訓練,進而得到畫面中對音頻信號響應較大的區域,即為發聲物體所在區域。這一過程利用了場景級別的視音一致性作為自監督信號。
        與此同時,基于聲源定位得到的定位圖能夠為排除復雜變化的背景干擾提供幫助,提取出較為干凈的物體視覺表征。并且,考慮到同一類別的物體的視覺表征具有一致性,通過將相似的視覺表征聚集,而后提取該聚集類別的代表性視覺表征是可行的。基于這一思想,該研究提出用聚類的方法對基于單聲源定位得到的所有樣本的視覺表征進行聚類。聚類的每一個簇被認為能夠代表一種語義類別的視覺表征的集合。同時,針對每個簇提取該類別的代表性視覺表征并打上偽標簽,便能構建相應的物體視覺表征字典,為解決多聲源定位任務做鋪墊。

        圖片

        圖 3 二階段 - 多聲源定位框架。
        在第二階段的多聲源定位中,該研究遞進地先從視覺上定位出畫面中存在的物體,再進一步根據聽覺信息過濾不發聲物體。畫面中存在物體的判斷借助了一階段中對物體視覺表征學習及所構建的不同類別物體視覺表征字典。具體來說,對于某幀多聲源場景下的視頻,經過視覺網絡提取其特征圖后,再將字典各個類別的視覺表征與該特征圖的各個部分進行內積操作判斷相似性。對于某一類別而言,若特征圖中存在對該類別視覺表征響應比較大的區域,則可認為該區域存在這一類別的物體。此時,畫面中存在的物體能夠被初步定位。進而,對于不發聲物體的過濾,該研究首先利用場景級別的視音一致性進行粗略的聲源定位得到畫面中的大致發聲區域,而后將基于畫面中存在物體的定位結果與發聲區域進行哈達瑪積,過濾掉不發聲的物體,同時細化發聲物體的定位結果。
        此時,經定位和過濾之后,便達到了在定位圖中過濾不發聲物體,保留發聲物體的目標。并且,根據定位結果所得到的發聲物體視覺表征與音頻表征構成了更細粒度的類別級別的視音一致性,能夠作為自監督信號幫助訓練,最終達成多聲源定位的目標。
        聲源定位結果

        圖片

        圖 4 在多個真實與合成數據集上的可視化定位結果。綠色框:發聲物體,紅色框:不發聲的物體。

        圖片

        圖 5 在多個真實與合成數據集上的定量分析結果。
        文中在涵蓋了音樂、日常生活場景等廣泛類別的多個真實及合成數據集上進行了多聲源定位的實驗,并分別進行了可視化及定量分析。在可視化定位圖中,每張圖展示了一類物體的定位結果,且發聲物體有較大響應,而不發聲物體未響應或響應很低。可以看到,尤其在合成的含有不發聲物體的復雜多聲源場景中,該方法具有較大優勢。并且,該方法進一步在聲源定位的基礎上具有辨別出物體的類別能力。
        應用:無監督物體檢測

        圖片

        圖 6 在 ImageNet 子集上的無監督物體檢測結果。
        除了場景復雜性更高、更貼近生活之外,該研究通過將先前的聲源定位任務拓展到具有類別敏感性的判別性聲源定位,達到了幫助模型認知不同類別物體及其視覺表征的目標。這一特點為視覺領域其他典型任務,如物體檢測,向無監督方向的發展提供了新的角度。對于無監督物體檢測任務來說,兩個關鍵問題分別是物體邊界框的構建和類別偽標簽的生成,而判別性聲源定位任務與其不謀而合。首先,無需額外代價,聲源定位任務所提供的定位圖便能轉換為物體大致的邊界框。其次,判別性聲源定位為畫面中的發聲物體分配了類別偽標簽。
        在拓展實驗中,該研究利用單聲源定位所得到的定位圖構造物體的邊界框,并與物體的類別偽標簽一起作為監督信號,在無需物體檢測標注的情況下訓練物體檢測器。ImageNet 子集上的可視化及定量實驗結果表明,該無監督物體檢測思路具有一定的可行性,尤其是在吉他等體積較大的物體類別上。這一實驗驗證了這種從判別性聲源定位任務出發挖掘物體視覺知識并遷移到視覺領域其他任務上的思路具有應用前景。
        總述
        總的來說,該研究從人的多重感官認知出發,考慮了聲音是由物體的振動產生的這一物理現象,利用視音之間的對應關系及大部分物體在視音表征上類間差異大而類內差異小這一性質,引入并解決了具有挑戰性的判別性多聲源定位的任務。并且,該研究進一步將所學習到的物體視覺知識遷移到包括物體檢測在內的其他視覺任務中,為用無監督方法解決典型視覺問題提供了新方向。這一研究啟發我們充分利用多種模態的信息,尤其是視音模態之間的聯系,認知、學習不同物體的知識,重新思考多模態背景下傳統任務的解決。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        pwm相關文章:pwm原理


        電度表相關文章:電度表原理




        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 上高县| 湘乡市| 灵宝市| 黑水县| 抚州市| 遂川县| 霍城县| 浦东新区| 松潘县| 怀柔区| 临江市| 宝应县| 青田县| 珲春市| 敦化市| 扎兰屯市| 建湖县| 突泉县| 中西区| 简阳市| 桓台县| 巴林左旗| 开鲁县| 曲靖市| 青岛市| 阿巴嘎旗| 甘洛县| 右玉县| 盐津县| 满洲里市| 景洪市| 河间市| 阜阳市| 县级市| 扎兰屯市| 萍乡市| 漳平市| 田阳县| 桂平市| 云浮市| 炎陵县|