博客專欄

        EEPW首頁 > 博客 > 最新綜述 | 復雜環境中的計算機視覺問題介紹及解決!(1)

        最新綜述 | 復雜環境中的計算機視覺問題介紹及解決!(1)

        發布人:計算機視覺工坊 時間:2023-01-19 來源:工程師 發布文章
        作者丨汽車人

        來源丨自動駕駛之心

        計算機視覺如何在復雜環境中進行有效感知?

        近年來,計算機視覺在智能交通系統(ITS)和自動駕駛(AD)中的應用逐漸轉向深度神經網絡架構。雖然在基準數據集上的性能似乎有所改善,但在研究中還沒有充分考慮到許多現實世界中的挑戰。本文對計算機視覺在ITS和AD中的應用進行了廣泛的調研,并討論了與數據、模型和復雜城市環境相關的挑戰。數據的挑戰與訓練數據的收集和標記及其與現實世界條件的相關性、數據集固有的偏向、需要處理的大量數據以及隱私問題有關。深度學習(DL)模型對于嵌入式硬件上的實時處理來說通常過于復雜,缺乏可解釋性和可推廣性,并且難以在真實環境中進行測試。

        圖片

        雖然在一些文獻中提到了這些問題,但只開發了一些方法來解決這些問題。智能交通中的計算機視覺是一個非常活躍的研究領域,本文選擇并綜述了200多篇論文。圖1概述了應用程序和挑戰,以供快速參考,而表1總結了每個應用程序中使用的方法和相關挑戰。以下章節(II、III、IV)討論了數據、模型和復雜交通環境的具體挑戰。第五節解釋了應對挑戰的一些代表性應用和解決方案。第六節是這一領域研究應采取的未來方向,最后,第七節提出了一些結論性意見。

        圖片

        數據的挑戰1)數據通信

        數據通信雖然在大多數ITS和AV計算機視覺研究中沒有考慮,但在實際應用中至關重要。在實踐中,單個基于相機的深度學習任務通常需要在TMC的相機和云服務器之間進行數據通信。視頻數據量很大,這可能導致潛在的數據通信問題,如傳輸延遲和數據包丟失。在協作攝像機傳感環境中,不僅與服務器進行數據通信,而且在不同傳感器之間進行數據通信。因此,另外兩個問題是多傳感器校準和數據同步,協作環境中的校準旨在確定傳感器之間的****轉換,以便能夠在給定幀合并來自多個視圖的采集數據。這項任務在多用戶環境中非常具有挑戰性,因為傳感器之間的變換矩陣隨著車輛的移動而不斷變化。在協作環境中,校準依賴于背景圖像中元素的同步,以確定靜態或移動傳感器之間的轉換。存在多個去同步源,例如時鐘之間的偏移或可變通信延遲。雖然時鐘可能是同步的,但很難確保在同一時刻觸發數據采集,這增加了合并采集數據的不確定性。同樣,不同的采樣率需要在采集或預測數據之間進行插值,這也增加了不確定性。

        2)訓練數據和benchmark的質量

        交通攝像頭廣泛部署在道路和車輛上,DOT和城市的TMC不斷收集網絡范圍內的交通攝像頭數據,這些數據對各種ITS應用(如事件識別和車輛檢測)都很有價值。然而,標記的訓練數據遠不如未標記的數據常見。隨著圖形逼真度和模擬物理變得越來越現實,許多應用程序缺少注釋數據集的問題正慢慢被合成數據所克服。例如,[9]中的GT 3D信息在單目3D檢測和跟蹤的訓練期間需要高精度,因此使用了視頻游戲數據。除了真實的外觀,模擬場景不需要手動標記,因為標簽已經由模擬生成,并且可以支持各種照明、視點和車輛行為。然而,如果使用合成數據,真實世界的應用仍然需要額外的學習過程,例如領域自適應。低保真度模擬數據用于訓練具有域隨機化轉移學習的真實世界目標檢測器。缺乏高質量的碰撞和接近碰撞數據通常被認為是一個實際的限制,更多的碰撞數據將更新AD中的注意力指南,使其能夠捕捉長期碰撞特征,從而提高碰撞風險評估。

        3)數據偏差

        盡管當前的車輛檢測算法在平衡數據集上表現良好,但當面對不平衡數據集時,它們在尾部類別上的性能會下降。在現實世界場景中,數據往往服從Zipfian分布,其中大量尾部類別的樣本很少。在長尾數據集中,少數頭部類(頻繁類)貢獻了大部分訓練樣本,而尾部類(罕見類)的代表性不足。大多數使用此類數據訓練的DL模型將長尾訓練數據的經驗風險降至最低,并且偏向于頭部類別,因為它們貢獻了大部分訓練數據。一些方法,如數據重采樣[22]和損失重加權[23],可以補償不足的類別。然而,他們需要根據類別頻率將類別劃分為幾個組。頭尾類之間的這種硬性劃分帶來了兩個問題:相鄰類別之間的訓練不一致,以及對罕見類別缺乏辨別力。

        模型挑戰1)復雜性

        DL計算機視覺模型在神經網絡結構和訓練過程方面具有很高的復雜性。許多DL模型設計用于在高性能云中心或AI工作站上運行,而一個好的模型需要數周或數月的訓練,以及由GPU或Tensor處理單元(TPU)驅動的高功耗。實時應用程序通常會進行一些修改,如調整視頻大小以降低分辨率或模型量化和修剪,這可能會導致性能損失。為了滿足效率和精度要求,在許多實際應用中需要降低最先進DL方法的模型復雜性。例如,多尺度可變形注意力已與視覺vit一起用于目標檢測,以實現高性能和快速收斂,從而加快訓練和推理。

        2)缺乏可解釋性

        DNN在很大程度上被視為具有多個處理層的黑盒,其工作情況可以使用統計數據進行檢查,但學習到的網絡內部表示基于數百萬或數十億個參數,使得分析極其困難。這意味著,行為本質上是不可預測的,而且對決策的解釋很少,這也使得自動駕駛等關鍵用例無法進行系統驗證。普遍認為,復雜的黑盒是良好性能所必需的,這一假設受到了挑戰。最近的研究試圖使DNN更易于解釋,[41]中介紹了視覺transformer的可視化工具,可用于查看內部機制,如隱藏參數,并深入了解影響預測的輸入的特定部分。

        3)可轉移性和可推廣性

        對非分布數據的泛化對人類來說是自然的,但對機器來說卻具有挑戰性,因為大多數學習算法都強烈依賴于測試數據的獨立和相同分布假設訓練,而這在實踐中常常因域轉移而被違反。域泛化旨在將模型泛化到新的領域,已經提出了學習可推廣和可轉移表示的不同方法。大多數現有方法都屬于域對齊的范疇,其中的主要思想是最小化源域之間的差異,以學習域不變表示。對源域移位不變的特征也應該對任何未發現的目標域移位都是魯棒的,數據增強是一種常見的做法,用于規范機器學習模型的訓練,以避免過度擬合并提高泛化能力[45],這對于過度參數化的DNN尤為重要。神經網絡中的視覺注意力可用于突出決策中涉及的圖像區域,并進行因果過濾以找到最相關的部分[46]。[47]中通過使用圖像的隨機屏蔽版本并比較輸出預測來估計單個像素的重要性,這種方法不適用于時空方法或那些考慮復雜環境中對象之間關系的方法!

        4)真實世界測試

        一般來說,DL方法容易出現不規范,無論模型類型或應用如何,都會出現這種問題。在其它領域中,[48]分析了計算機視覺中的不規范性,特別是針對DL模型,如常用的ResNet-50和縮放轉移學習圖像分類模型Big transfer(BiT)[49]。研究表明,雖然基準分數隨著模型復雜度和訓練數據的增加而提高,但使用真實世界的失真進行測試會導致較差且高度變化的性能,這嚴重依賴于用于初始化訓練的隨機種子。實際系統需要在各種低成本硬件上實時處理的內存和計算方面高效[50]。一些實現高效和低成本計算的方法包括參數修剪、網絡量化、低秩因子分解和模型蒸餾。像[51]這樣的方法是有效的,能夠實時預測軌跡,但不是端到端的,因為它們假設預先存在目標跟蹤系統來估計周圍車輛的狀態。

        行人和騎自行車者等弱勢道路使用者(VRU)存在一個獨特的問題,因為他們可以非常快速地改變方向和速度,并與車輛不同地與交通環境交互。在ITS中實際部署計算機視覺模型的一些主要障礙是數據源和軟件的異質性、傳感器硬件故障以及極端或異常傳感情況。此外,最近的框架(例如基于邊緣計算的框架)直接暴露了具有各種安全實現的大量異構設備的無線通信信號,為惡意行為者創造了不斷增加的潛在攻擊面。已經開發了深度學習模型來檢測這些攻擊,但實時應用和在線學習仍然是積極研究的領域。IoV面臨著基本的實際問題,這是由于移動車輛將在邊緣節點上呈現高度可變的處理要求,而每輛車也可以同時運行許多邊緣和云相關的應用程序,以及惡劣的無線通信環境。與自動駕駛汽車邊緣計算相關的其它挑戰包括協作感知、協作決策和網絡安全,攻擊者可以使用激光和明亮的紅外光干擾相機和激光雷達,改變交通標志,并通過通信信道回放攻擊,模型挑戰的可視化描述如圖3所示!

        圖片

        復雜的環境1)陰影、照明、天氣

        陰影、惡劣天氣、背景和前景之間的相似性、現實世界中的強烈或不足照明等情況被引用為常見問題[59],[60]。眾所周知,相機圖像的外觀受到不利天氣條件的影響,如大霧、雨夾雪、暴風雪和沙塵暴[61]。[62]中的一種實時碰撞檢測方法使用高斯混合模型進行前景提取,然后使用平均移動算法跟蹤車輛。車輛的位置、速度和加速度通過閾值函數來確定碰撞的檢測。雖然計算效率很高,但這種方法在噪聲、復雜的交通環境和天氣變化的情況下會受到嚴重影響。在惡劣的天氣條件下,相機捕捉到的車輛會出現曝光不足、模糊和部分遮擋等問題。同時,出現在交通場景中的雨滴和雪花增加了算法提取車輛目標的難度。在夜間,或在車輛朝著攝像頭行駛的隧道中,由于遠光眩光,場景可能被完全掩蓋。

        2)Occlusion

        遮擋是最具挑戰性的問題之一,其中由于另一個前景目標的遮擋,目標對象僅部分可用于相機或傳感器。遮擋以多種形式存在,從部分遮擋到重度遮擋。在AD中,目標對象可以被建筑物和燈柱等靜態對象遮擋,諸如移動車輛或其它道路使用者之類的動態對象可能會彼此遮擋,例如在人群中。遮擋也是物體跟蹤中的一個常見問題,因為一旦被跟蹤車輛從視野中消失并再次出現,它就被視為不同的車輛,導致跟蹤和軌跡信息不準確。

        3)攝像機角度

        在交通基礎設施的應用中,監控攝像機的多樣性及其視角對在有限類型的攝像機視圖上訓練的DL方法提出了挑戰。雖然[68]中的算法在計算上是有效的,并且可以在不同的照明條件和交通密度場景下工作,但較低的間距相機視圖和道路標記拐角可能會引入顯著的錯誤。[69]中的模型可以識別攝像機附近的異常,包括它們的開始和結束時間,但對于距離中的異常來說并不準確,因為車輛只占幾個像素。早期對監控視頻異常檢測的一項調查得出結論,照明、攝像機角度、異質對象和缺乏真實世界數據集是主要挑戰[67]。用于稀疏和密集交通條件的方法是不同的,并且缺乏可推廣性。在多視圖視覺場景中,匹配不同視圖中的對象是另一個主要問題,因為多視圖ITS應用程序需要處理不同相機同時捕獲的不同圖像中的數據[70]。

        4)相機模糊和圖像降級

        監控攝像機受天氣因素影響。水、灰塵和顆粒物質可能積聚在鏡頭上,導致圖像質量下降。強風會導致相機抖動,導致整個圖像的運動模糊。自動駕駛汽車上的前置攝像頭也面臨這一問題,因為昆蟲會砸到玻璃上,導致攝像頭視野中的盲點。具體而言,目標檢測和分割算法受到極大影響,除非在模型中做好準備,否則錯誤檢測可能會導致AD中的嚴重安全問題,并錯過監視應用中的重要事件。解決這一問題的一些方法包括使用退化圖像進行訓練、圖像恢復預處理和微調預訓練網絡以從退化圖像中學習。例如,[72]中使用了密集的Gram網絡,其提高了退化圖像中的圖像分割性能。

        5)異構的城市交通條件

        密集的城市交通場景充滿了復雜的視覺元素,不僅在數量上,而且在各種不同的車輛及其交互中,如圖4所示。汽車、公共汽車、自行車和行人在同一個十字路口的存在是自動導航和軌跡計算的一個重要問題。不同的尺寸、轉彎半徑、速度和駕駛員行為因這些道路使用者之間的互動而進一步復雜化。從DL的角度來看,很容易找到異構城市交通的視頻,但標記地面真相非常耗時。模擬軟件通常無法捕捉此類場景的復雜動態,尤其是在密集的城市中心出現的交通規則破壞行為。事實上,[74]中創建了一個特定的數據集來表示這些行為。[75]中創建了一個用于無管制密集交通的模擬器,該模擬器對自動駕駛感知和控制很有用,但不代表真實道路使用者的軌跡和交互。

        圖片


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        聲控燈相關文章:聲控燈原理


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 铅山县| 千阳县| 河东区| 普格县| 岑溪市| 浦北县| 牡丹江市| 游戏| 沅陵县| 庄浪县| 珲春市| 桑日县| 买车| 张家川| 桐城市| 东阿县| 洛宁县| 松溪县| 巩义市| 鄂伦春自治旗| 兴义市| 东山县| 湘乡市| 营口市| 黄平县| 烟台市| 镇江市| 普定县| 福鼎市| 铜川市| 平湖市| 报价| 郎溪县| 突泉县| 从化市| 华亭县| 禄劝| 上饶县| 衡阳县| 珠海市| 遵义市|