博客專(zhuān)欄

        EEPW首頁(yè) > 博客 > 零樣本目標(biāo)檢測(cè):魯棒的區(qū)域特征合成器用于目標(biāo)檢測(cè)

        零樣本目標(biāo)檢測(cè):魯棒的區(qū)域特征合成器用于目標(biāo)檢測(cè)

        發(fā)布人:CV研究院 時(shí)間:2023-01-19 來(lái)源:工程師 發(fā)布文章
        零樣本目標(biāo)檢測(cè)(Zero-shot object detection)旨在結(jié)合類(lèi)語(yǔ)義向量來(lái)實(shí)現(xiàn)在給定無(wú)約束測(cè)試圖像的情況下檢測(cè)(可見(jiàn)和)未見(jiàn)過(guò)的類(lèi)。


        一、前言

        在這項(xiàng)研究中,研究者揭示了該研究領(lǐng)域的核心挑戰(zhàn):如何合成與真實(shí)樣本一樣具有類(lèi)內(nèi)多樣性和類(lèi)間可分性的魯棒區(qū)域特征(對(duì)于未見(jiàn)對(duì)象),從而可以實(shí)現(xiàn)強(qiáng)大的未見(jiàn)目標(biāo)檢測(cè)器。

        為了應(yīng)對(duì)這些挑戰(zhàn),研究者構(gòu)建了一個(gè)新穎的零樣本目標(biāo)檢測(cè)框架其中包含一個(gè)類(lèi)內(nèi)語(yǔ)義發(fā)散組件和一個(gè)類(lèi)間結(jié)構(gòu)保留組件。前者用于實(shí)現(xiàn)一對(duì)多映射,從每個(gè)類(lèi)語(yǔ)義向量中獲取不同的視覺(jué)特征,防止將真實(shí)的看不見(jiàn)的物體誤分類(lèi)為圖像背景。而后者用于避免合成特征過(guò)于分散而混淆類(lèi)間和前景-背景關(guān)系。

        圖片

        為了證明所提出方法的有效性,對(duì)PASCAL VOC、COCO和DIOR數(shù)據(jù)集進(jìn)行了綜合實(shí)驗(yàn)。值得注意的是,新提出的方法在PASCAL VOC和COCO上實(shí)現(xiàn)了最先進(jìn)的性能,并且是第一個(gè)在遙感圖像中進(jìn)行零樣本目標(biāo)檢測(cè)的研究。

        二、背景

        隨著CNNTransformer等深度學(xué)習(xí)技術(shù)的快速發(fā)展,目標(biāo)檢測(cè)研究領(lǐng)域取得了訊飛的進(jìn)步。盡管現(xiàn)有方法實(shí)現(xiàn)的檢測(cè)性能看起來(lái)很有希望和令人鼓舞,但在實(shí)際場(chǎng)景中應(yīng)用它們存在一個(gè)隱藏的缺點(diǎn)——主流檢測(cè)方法對(duì)要檢測(cè)的類(lèi)別有嚴(yán)格的限制。

        一旦模型被訓(xùn)練,它只能識(shí)別出現(xiàn)在訓(xùn)練數(shù)據(jù)中的物體,而其他出現(xiàn)在測(cè)試圖像中但在訓(xùn)練過(guò)程中看不到的物體會(huì)極大地混淆模型,導(dǎo)致無(wú)法避免的檢測(cè)結(jié)果錯(cuò)誤。為了解決這個(gè)問(wèn)題,近年來(lái)提出了零樣本目標(biāo)檢測(cè)(ZSD)的任務(wù)。目標(biāo)是使檢測(cè)模型能夠預(yù)測(cè)在訓(xùn)練期間沒(méi)有任何可用樣本的看不見(jiàn)的對(duì)象。

        三、新框架分析

        圖片

        在這項(xiàng)工作中研究問(wèn)題的插圖。在實(shí)際情況下,樣本構(gòu)建的特征空間顯示出較高的類(lèi)內(nèi)多樣性,但仍具有類(lèi)間可分離性,如a所示,而現(xiàn)有方法學(xué)習(xí)的合成視覺(jué)特征空間要么類(lèi)內(nèi)多樣性不足(如b所示),或具有過(guò)多的類(lèi)內(nèi)多樣性,使類(lèi)間不可分割(如c所示)。

        圖片

        上圖顯示了提出的ZSD總體框架。可以看出,它包含一個(gè)目標(biāo)檢測(cè)模塊和一個(gè)域變換模塊。目標(biāo)檢測(cè)模塊是一個(gè)Faster-RCNN模型,以ResNet-101作為主干。

        首先,我們用看到的圖像及其相應(yīng)的groundtruth注釋來(lái)訓(xùn)練Faster-RCNN模型。獲得模型后,可以用它來(lái)使用RPN為所見(jiàn)類(lèi)提取區(qū)域特征。其次,我們訓(xùn)練區(qū)域特征合成器來(lái)學(xué)習(xí)語(yǔ)義詞向量和視覺(jué)特征之間的映射。然后,使用學(xué)習(xí)到的特征合成器為看不見(jiàn)的類(lèi)生成區(qū)域特征。通過(guò)這些合成的未見(jiàn)區(qū)域特征及其相應(yīng)的類(lèi)別標(biāo)簽,我們可以為未見(jiàn)類(lèi)別訓(xùn)練未見(jiàn)分類(lèi)器。最后,我們更新Faster-RCNN模型中的分類(lèi)器,以實(shí)現(xiàn)ZSD任務(wù)的新檢測(cè)器。

        整個(gè)訓(xùn)練過(guò)程也在Algorithm 1中進(jìn)行了詳細(xì)說(shuō)明。請(qǐng)注意,新提出的方法核心是如何學(xué)習(xí)統(tǒng)一的生成模型來(lái)學(xué)習(xí)視覺(jué)域和語(yǔ)義域之間的關(guān)系。具體來(lái)說(shuō),研究者設(shè)計(jì)了一個(gè)統(tǒng)一的區(qū)域特征合成器,用于在現(xiàn)實(shí)世界檢測(cè)場(chǎng)景中進(jìn)行特征合成,其中包含一個(gè)類(lèi)內(nèi)語(yǔ)義發(fā)散組件和一個(gè)類(lèi)間結(jié)構(gòu)保持組件。

        圖片

        四、實(shí)驗(yàn)及可視化

        Comparison of mAP at IoU=0.5, under ZSD and GZSD settings on PASCAL VOC dataset

        圖片

        Comparison of Recall@100 and mAP at IoU=0.5 over two seen/unseen splits, under GZSD setting on MS COCO dataset

        圖片

        圖片

        圖片

        PASCAL VOC、MS COCO(48/17和65/15)和DIOR數(shù)據(jù)集的定性結(jié)果。對(duì)于每個(gè)數(shù)據(jù)集,第一列和第二列分別是ZSD和GZSD的結(jié)果。看到的類(lèi)用綠色表示,看不見(jiàn)的用紅色表示。


        *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專(zhuān)區(qū)

        關(guān)閉
        主站蜘蛛池模板: 康平县| 九江县| 巴马| 上栗县| 加查县| 巴里| 苗栗市| 灵宝市| 奉节县| 台东县| 太和县| 琼结县| 察雅县| 图木舒克市| 冷水江市| 子长县| 离岛区| 同仁县| 丽江市| 咸宁市| 新余市| 青浦区| 七台河市| 观塘区| 宁津县| 瓦房店市| 河北省| 美姑县| 文成县| 遵化市| 石河子市| 仲巴县| 怀来县| 南川市| 教育| 黄浦区| 铜梁县| 丽江市| 朝阳区| 合肥市| 乳山市|