AI技術 | 過年黑夜中也可以準確檢測識別(附論文下載)
在弱光圖像中進行人臉檢測具有挑戰性,因為照片數量有限,而且不可避免地會有噪聲,而這些噪聲往往在空間上分布不均勻,使得這項任務更加困難。
一、簡要
在弱光圖像中進行人臉檢測具有挑戰性,因為照片數量有限,而且不可避免地會有噪聲,而這些噪聲往往在空間上分布不均勻,使得這項任務更加困難。一個自然的解決方案是借用多重曝光的想法,即在具有挑戰性的條件下捕捉多個鏡頭以獲得良好曝光的圖像。然而,對單一圖像進行高質量的多重曝光的實現/近似是很重要的。
幸運的是,如今天分享的所示,由于現在的任務是人臉檢測而不是圖像增強,因此也不需要如此高質量。具體來說,有研究者提出了一種新的經常性曝光生成(Recurrent Exposure Generation,REG)模塊,并將其與多重曝光檢測(MED)模塊無縫耦合,從而通過有效地抑制不均勻的照明和噪聲問題來顯著提高人臉檢測性能。REG逐步有效地生成與各種曝光設置相對應的中間圖像,然后由MED融合這些偽曝光,以檢測不同照明條件下的人臉。所提出的方法名為REGDet,是第一個用于弱光人臉檢測的“增強檢測”框架。它不僅鼓勵在不同照明水平上進行豐富的交互作用和特征融合,而且還使REG組件的有效端到端學習更適合于人臉檢測。
此外,正如發布的實驗清楚顯示的那樣,REG可以靈活地與不同的面部檢測器耦合,而無需對額外的低/正常光圖像進行訓練。研究者在DARK FACE微光面部基準測試中通過徹底的消融測試對REGDet進行了測試,其中REGDet僅以微不足道的額外參數就大大超過了現有技術水平。
二、背景
作為許多人臉相關系統的基石,人臉檢測一直吸引著長期的研究關注。
它在以人為中心的重識別,人工分析中有廣泛的應用。盡管近十年取得了巨大的進展,但人臉檢測仍然具有挑戰性,尤其是在惡劣光照條件下的圖像。在弱光條件下捕獲的圖像通常會使其亮度降低,強度對比度被壓縮,從而混淆了特征提取,損害了人臉檢測的性能。光照差也會引起惱人的噪音,進一步破壞人臉檢測的結構信息。更糟糕的是,一張圖像中的照明狀態可能在空間上變化很大。為了對不利光照條件下的人臉檢測算法進行系統評估,最近構建了一個具有挑戰性的基準-DARK FACE,它顯示了最先進的人臉檢測器有明顯的性能下降。例如,DSFD產生的mAP為15.3%,與流行的WIDER FACE基準測試的90%以上形成鮮明對比。DARK FACE數據集上的人臉探測器的顯著性能退化清楚地表明,在弱光條件下檢測人臉仍然極具挑戰性,這是本此分享的主要重點。
可以通過下圖簡單了解下檢測的效果對比:
然而如上圖所示(b-c),還有一個很大的改進空間。由于一個原因,圖像增強的目的是提高整個圖像的視覺/感知質量,而這與人臉檢測的目標并不完全一致。例如,增強有噪聲圖像的平滑操作可能會破壞對檢測至關重要的特征可識別性。這表明增強和檢測組件之間的緊密集成,并指出了端到端“增強檢測”解決方案。
Low-Light Face Detection
弱光人臉檢測一直吸引著長期的研究。在手工制作特征的時代,人們一直在努力理解和解決非均勻照明的問題。近年來,人們對低分辨率圖像、低光圖像、弱光圖像等低質量圖像的數據驅動人臉檢測的方法越來越感興趣。光照變化是現代人臉檢測算法的一個主要挑戰。開創性的方法是通過強度映射來預處理圖像,如對數變換和伽馬變換。光度歸一化是另一種常用的方法,它可以在手工制作的特征和基于深度學習的方法中抵消不同的光照條件。手工制作的基本特征的方法從圖像差異或梯度等各種先驗得到光照不變性,而基于深度學習的方法使用隨機光度作為增強,以隱式地增強光照不變性。
盡管之前有研究,在極其惡劣的光條件下的人臉檢測已經被探索中,部分原因是缺乏高質量的標簽數據。針對這個問題,有研究者提出了一個大型的人工標記的低光人臉檢測數據集——DARK FACE,并表明現有的人臉探測器在任務上表現很差。因此,今天分享的工作是在基準上的激勵和評估,并明顯優于以前的藝術。基線實驗表明,盡管現在取得了顯著的成功,但即使只是使用現有的低光增強方法預處理圖像,即使是訓練良好的人臉檢測器也不太理想。
三、新框架及分析
Recurrent Exposure Generation Module
所提出的REG模塊利用歷史生成的圖像來維護遞歸神經網絡(RNN)框架中的關鍵區域細節。從I和初始隱藏狀態H=0開始,REG遞歸生成遞歸的T中間偽曝光I,表述為:
其中,Fθ和Gω分別表示該模塊的編碼器和****,并具有對應的參數θ和ω。由四個級聯卷積遞歸層組成的編碼器負責將輸入圖像轉換為多個尺度(層)的特征圖,而由兩個卷積層組成的****學習將特征映射解碼回圖像,如上圖所示。
第l層中的REGUFL可用以下方程式來描述:
Pseudo-Supervised Pre-Training of the REG Module
研究者采用了[Z. Ying, G. Li, and W. Gao. A Bio-Inspired Multi-Exposure Fusion Framework for Low-light Image Enhancement. arXiv:1711.00591 [cs]]中提出的相機響應模型,該模型可以描述在沒有相機信息可用時像素值和曝光比之間的一般關系。它的BTF是貝伽瑪修正的形式:
作為一個端到端系統,REGDet允許在學習期間聯合優化REG和MED模塊。直觀地說,MED提供了面部位置信息來引導REG,以便面部區域可以被特別地增強來進行檢測。下圖的最右欄顯示了一個示例檢測結果。結果表明,REGDet成功地定位了更多的中間圖像,而不是簡單地應用基礎檢測器定位更多的人臉。
值得注意的是,MED在選擇基礎探測器方面很靈活。在實驗中,一些最先進的算法,如DSFD、PyramidBox和S3FD,在嵌入REGDet時都顯示了明顯的性能改進。
四、實驗及可視化
Alternative pseudo-exposure generation modules
Results of a4blation study on the proposed REG module
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。