博客專欄

        EEPW首頁 > 博客 > “目標檢測”+“視覺理解”實現對輸入圖像的理解及翻譯

        “目標檢測”+“視覺理解”實現對輸入圖像的理解及翻譯

        發布人:CV研究院 時間:2022-07-23 來源:工程師 發布文章

        提出了GLIPv2,一種基于VL的理解模型,它服務于localization任務例如,目標檢測、實例分割)和視覺語言(VL)理解任務(例如,VQA、圖像字幕)。


        01

        概述


        GLIPv2優雅地將localization預訓練和視覺語言預訓練 (VLP) 與三個預訓練任務相結合:phrase grounding作為檢測任務的VL重構,區域-詞對比學習作為新的區域-詞級對比學習任務和掩碼語言建模。這種統一不僅簡化了之前的多階段VLP程序,而且實現了定位和理解任務之間的互惠互利。實驗結果表明,單個GLIPv2模型(所有模型權重共享)在各種定位和理解任務上實現了接近SoTA的性能。該模型還展示了:

        • 在開放詞匯目標檢測任務上的強大的零樣本和少樣本自適應性能;
        • 在 VL 理解任務上的出色grounding能力

        02

        背景


        最近,人們普遍關注構建通用視覺系統,也稱為視覺基礎模型,它可以同時解決各種視覺任務,例如圖像分類、物體檢測,以及視覺語言 (VL) 理解。特別感興趣的是定位任務(例如,目標檢測和分割)和VL理解任務(例如,VQA和圖像字幕)之間的統一。

        localization預訓練有利于VL任務,“localization->VLP”兩階段預訓練過程是VL社區。一個長期存在的挑戰是localization和理解的統一,旨在這兩種任務之間互惠互利,簡化預訓練程序并降低預訓練成本。

        然而,這兩種任務似乎有很大的不同:定位任務僅是視覺任務,需要細粒度的輸出(例如,邊界框或像素掩碼),而VL理解任務強調兩種模式之間的融合,需要高級語義輸出。例如,答案或標題)。


        03

        新框架


        圖片

        Left: GLIPv2, a pre-trained grounded VL understanding model, unifies various localization and VL understanding tasks. These two kinds of tasks mutually benefit each other, and enables new capabilities such as language-guided detection/segmentation and grounded VQA/captioning. Right: Additional examples from ODinW (detection), LVIS (segmentation), VQA, and COCO Captioning.

        A Unified VL Formulation and Architecture

        GLIPv2統一公式的核心是分類匹配技巧,它將任何特定于任務的固定詞匯分類問題重新表述為與任務無關的開放詞匯視覺語言匹配問題。最好的例子是在CLIP中將圖像分類重新表述為圖像-文本匹配,這使模型能夠直接從原始圖像-文本數據中學習,并在開放詞匯分類任務上實現強大的零樣本結果。在GLIPv2 中,我們用視覺語言匹配點積層替換了傳統單模態視覺模型中的每個語義分類線性層。

        圖片

        GLIPv2 Pre-training

        GLIPv2使用三個預訓練損失進行預訓練:來自目標檢測任務的視覺語言重構的phrase grounding損失Lground、來自新的區域單詞級別對比學習任務的區域單詞對比損失 Linter,以及標準掩碼BERT中提出的語言建模損失Lmlm。

        圖片

        Transfer GLIPv2 to Localization and VL Tasks

        我們引入了兩種輕松將GLIPv2傳輸到各種下游任務的方法。此外,GLIPv2可以在本地化的同時執行傳統的VL任務(例如VQA),有效地使我們認為的每項任務都成為“基礎的VL理解”任務。

        圖片

        GLIPv2 pre-training losses: the intra-image alignment loss Lintra (right) takes features after VL fusion and compute loss over region-word pairs within each image-text pair; the inter-image contrastive loss (left) Linter takes features before VL fusion and compute loss over all region-word pairs across a batch of image-text pairs. Label propagation is used to determine the off-diagonal blocks of the Linter target matrix.


        04

        實驗及可視化


        圖片

        圖片

        圖片

        圖片


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 项城市| 潜山县| 荔浦县| 小金县| 淳化县| 洞口县| 吴川市| 晋中市| 原阳县| 翼城县| 阿克| 广昌县| 罗江县| 白水县| 湟源县| 西宁市| 张北县| 车险| 育儿| 隆尧县| 太保市| 精河县| 当雄县| 崇阳县| 镇安县| 四会市| 平果县| 盘山县| 阿坝| 滨州市| 永嘉县| 视频| 连城县| 嘉黎县| 平顺县| 尉氏县| 浏阳市| 武冈市| 石门县| 神农架林区| 韩城市|