“目標檢測”+“視覺理解”實現對輸入圖像的理解及翻譯
提出了GLIPv2,一種基于VL的理解模型,它服務于localization任務(例如,目標檢測、實例分割)和視覺語言(VL)理解任務(例如,VQA、圖像字幕)。
01
概述
- 在開放詞匯目標檢測任務上的強大的零樣本和少樣本自適應性能;
- 在 VL 理解任務上的出色grounding能力
02
背景
最近,人們普遍關注構建通用視覺系統,也稱為視覺基礎模型,它可以同時解決各種視覺任務,例如圖像分類、物體檢測,以及視覺語言 (VL) 理解。特別感興趣的是定位任務(例如,目標檢測和分割)和VL理解任務(例如,VQA和圖像字幕)之間的統一。
localization預訓練有利于VL任務,“localization->VLP”兩階段預訓練過程是VL社區。一個長期存在的挑戰是localization和理解的統一,旨在這兩種任務之間互惠互利,簡化預訓練程序并降低預訓練成本。
然而,這兩種任務似乎有很大的不同:定位任務僅是視覺任務,需要細粒度的輸出(例如,邊界框或像素掩碼),而VL理解任務強調兩種模式之間的融合,需要高級語義輸出。例如,答案或標題)。
03
新框架
Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.
A Unified VL Formulation and Architecture
GLIPv2統一公式的核心是分類匹配技巧,它將任何特定于任務的固定詞匯分類問題重新表述為與任務無關的開放詞匯視覺語言匹配問題。最好的例子是在CLIP中將圖像分類重新表述為圖像-文本匹配,這使模型能夠直接從原始圖像-文本數據中學習,并在開放詞匯分類任務上實現強大的零樣本結果。在GLIPv2 中,我們用視覺語言匹配點積層替換了傳統單模態視覺模型中的每個語義分類線性層。
GLIPv2 Pre-training
GLIPv2使用三個預訓練損失進行預訓練:來自目標檢測任務的視覺語言重構的phrase grounding損失Lground、來自新的區域單詞級別對比學習任務的區域單詞對比損失 Linter,以及標準掩碼BERT中提出的語言建模損失Lmlm。
Transfer GLIPv2 to Localization and VL Tasks
我們引入了兩種輕松將GLIPv2傳輸到各種下游任務的方法。此外,GLIPv2可以在本地化的同時執行傳統的VL任務(例如VQA),有效地使我們認為的每項任務都成為“基礎的VL理解”任務。
GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.
04
實驗及可視化
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。