CVPR2121目標檢測 | 少見的知識蒸餾用于目標檢測
近年來,知識蒸餾已被證明是對模型壓縮的一種有效的解決方案。這種方法可以使輕量級的學生模型獲得從繁瑣的教師模型中提取的知識。
1、簡介
然而,以往的蒸餾檢測方法對不同的檢測框架具有較弱的泛化性,并且嚴重依賴于GT,忽略了實例之間有價值的關系信息。因此,研究者提出了一種新的基于鑒別實例的檢測方法,而不考慮GT的正負區別,稱為通用的實例蒸餾(GID)。
新提出的方法包含了一個通用的實例選擇模塊(GISM),以充分利用基于特征、基于關系和基于響應的知識進行蒸餾。大量的結果表明,學生模型在各種檢測框架中取得了顯著的AP改進,甚至優于教師。具體來說,ResNet-50的RetinaNet在COCO數據集上使用GID在mAP中達到39.1%,超過基線36.2%,甚至優于基于ResNet-101的38.1%AP教師模型。
2、背景及動機
由Hinton等人【Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network, 2015】提出的知識蒸餾(KD)是解決上述問題的一種很有前途的方法。知識蒸餾是將大模型的知識傳遞給小模型,從而提高小模型的性能,達到模型壓縮的目的。目前,知識的典型形式可分為三類:反應型知識、特征型知識和關系型知識。然而,大多數蒸餾方法主要是針對多分類問題而設計的。
直接將分類特定蒸餾方法遷移到檢測模型中的效果較差,因為檢測任務中正實例和負實例的比例極不平衡。
一些為檢測任務設計的蒸餾框架處理了這個問題,并取得了令人印象深刻的結果,例如。Li【Quanquan Li, Shengying Jin, and Junjie Yan. Mimicking very efficient network for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017】通過提取RPN和Wang等人【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】抽樣一定比例的正負實例來解決這個問題。進一步提出只提取近GT區。然而,蒸餾的正負實例之間的比率需要精心設計,而僅蒸餾與GT相關的區域可能會忽略背景中潛在的信息區域。此外,目前的檢測蒸餾方法不能同時在多個檢測框架中工作:如two-stage, anchor-free。因此,研究者希望設計一種通用的蒸餾方法,用于各種檢測框架,以有效地使用盡可能多的知識,而不涉及正或負。
3、新框架優勢
通過上圖可以知道,新框架有如下優勢:
(i)可以對一個圖像中實例之間的關系知識進行建模,以便進行蒸餾。Hu【Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018】演示了關系信息對檢測任務的有效性。然而,基于關系的知識蒸餾在目標檢測中還沒有被探索。
(ii)避免手動設置正、負區域的比例,或只選擇與GT有關的區域進行蒸餾。雖然GT相關的領域幾乎是信息豐富的,但極其困難和簡單的實例可能是無用的,甚至來自背景的一些信息塊也可以幫助學生學習教師的泛化。此外,研究者還發現,自動選擇學生和教師之間的一些判別實例進行蒸餾,可以使知識傳遞更加有效。這些判別實例被稱為一般實例(GIS),因為新方法不關心正實例和負實例之間的比例,也不依賴于GT標簽。
(iii)新方法對各種檢測框架具有強大的泛化能力。基于學生和教師模型的輸出計算GIS,而不依賴于特定檢測器的某些模塊或特定檢測框架的某些關鍵特性,如anchor。
4、General Instance Distillation
先前的工作【Tao Wang, Li Yuan, Xiaopeng Zhang, and Jiashi Feng. Distilling object detectors with fine-grained feature imitation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019】提出,目標附近的特征區域有相當多的信息,這對于知識蒸餾是有用的。然而,研究者發現,不僅目標附近的特征區域,而且即使是來自背景區域的判別塊也有意義的知識。基于這一發現,設計了通用實例選擇模塊(GISM),如下圖所示。
該模塊利用教師和學生模型的預測來選擇蒸餾的關鍵實例。此外,為了更好地利用教師提供的信息,提取并利用基于特征、基于關系和基于響應的知識進行蒸餾,如下圖所示。實驗結果表明,新的蒸餾框架對于目前最先進的檢測模型是通用的。
5、實驗
為了驗證該方法的有效性和魯棒性,在不同的檢測框架和異構主架構上進行了實驗,并在COCO和Pascal VOC數據集的少數類檢測上進行了實驗。具體來說,在【Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In C. Cortes, N. D. Lawrence, D. D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems 28, pages 91–99. Curran Associates, Inc., 2015】中的設置之后,對于PascalVOC數據集,選擇在VOC2007中分割的5k訓練圖像和在VOC2012中分割的16k訓練圖像進行訓練,在VOC2007中分割的5k測試圖像進行測試。對于COCO,選擇默認的120k訓練圖像分割進行訓練,5k Val圖像分割進行測試。所有蒸餾性能均以AP進行評價。
綠色、紅色、黃色和青色框分別表示GT、正、半正和負實例。為了進一步分析了每種類型的一般實例的貢獻,并驗證了GISM的有效性,對每種類型的一般實例進行了實驗。引入了一個名為intersection over proposals (IoP),以幫助分離這些GI:
GI的每個類型定義如下:
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。