博客專欄

        EEPW首頁 > 博客 > 騰訊優(yōu)圖出品:P2P網(wǎng)絡(luò)的人群檢測與計數(shù)

        騰訊優(yōu)圖出品:P2P網(wǎng)絡(luò)的人群檢測與計數(shù)

        發(fā)布人:CV研究院 時間:2022-02-10 來源:工程師 發(fā)布文章

        人群計數(shù)是計算機(jī)視覺中的一項核心任務(wù),旨在估計靜止圖像或視頻幀中的行人數(shù)量。在過去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。

        1背景

        人群計數(shù)是計算機(jī)視覺中的一項核心任務(wù),旨在估計靜止圖像或視頻幀中的行人數(shù)量。 在過去的幾十年中,研究人員在該領(lǐng)域投入了大量精力,并在提升現(xiàn)有主流基準(zhǔn)數(shù)據(jù)集的性能方面取得了顯著進(jìn)展。然而,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大規(guī)模和高質(zhì)量的標(biāo)記數(shù)據(jù)集,而注釋像素級行人位置的成本高得令人望而卻步。

        此外,由于數(shù)據(jù)分布之間的域轉(zhuǎn)移,在標(biāo)簽豐富的數(shù)據(jù)域(源域)上訓(xùn)練的模型不能很好地泛化到另一個標(biāo)簽稀缺域(目標(biāo)域),這嚴(yán)重限制了現(xiàn)有方法的實(shí)際應(yīng)用。

        2 引言

        最近的ICCV2021,騰訊優(yōu)圖出品了一個人群基數(shù)相關(guān)論文《Rethinking Counting and Localization in Crowds: A Purely Point-Based Framework》。

        論文:https://arxiv.org/pdf/2107.12858.pdf

        image.png

        相比僅僅估計人群中的總?cè)藬?shù),在人群中定位每個個體更為切合后續(xù)高階人群分析任務(wù)的實(shí)際需求。但是,已有的基于定位的解決方法依賴于某些中間表示(如密度圖或者偽目標(biāo)框)作為學(xué)習(xí)目標(biāo),這不光容易引入誤差,而且是一種反直覺的做法。

        image.png

        優(yōu)圖團(tuán)隊提出了一種完全基于點(diǎn)的全新框架,可同時用于人群計數(shù)和個體定位。針對基于該全新框架的方法,我們不滿足于僅僅量化圖像級別的絕對計數(shù)誤差,因此研究者提出了一種全新的度量指標(biāo)即密度歸一化平均精度,來提供一個更全面且更精準(zhǔn)的性能評價方案。

        此外,作為該框架一個直觀解法,研究者給出了一個示例模型,叫做點(diǎn)對點(diǎn)網(wǎng)絡(luò)(P2PNet)。P2PNet忽略了所有冗余步驟,直接預(yù)測一系列人頭點(diǎn)的集合來定位圖像中的人群個體,這完全與真實(shí)人工標(biāo)注保持一致。通過深入分析,研究者發(fā)現(xiàn)實(shí)現(xiàn)該方法的一個核心策略是為預(yù)測候選點(diǎn)分配最優(yōu)的學(xué)習(xí)目標(biāo),并通過基于匈牙利算法的一對一匹配策略來完成了這一關(guān)鍵步驟。實(shí)驗(yàn)證明,P2PNet不光在人群計數(shù)基準(zhǔn)上顯著超越了已有SOTA方法,還實(shí)現(xiàn)了非常高的定位精度。

        今天我們“計算機(jī)視覺研究院”分享另一篇《計算機(jī)協(xié)會》收錄的一篇人群計數(shù)論文《Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring Network》。

        3 框架分析

        目標(biāo)域(下圖頂部)和源域(下圖底部)之間存在的域相似性的圖示。左:一些擁擠區(qū)域在像素級別跨域相似。右圖:部分源樣本可能與目標(biāo)樣本共享相似的圖像分布。

        image.png

        最近的深度網(wǎng)絡(luò)令人信服地展示了人群計數(shù)的高能力,這是一項因其各種工業(yè)應(yīng)用而引起廣泛關(guān)注的關(guān)鍵任務(wù)。盡管取得了這樣的進(jìn)展,但由于固有的領(lǐng)域轉(zhuǎn)移,訓(xùn)練有素的依賴于數(shù)據(jù)的模型通常不能很好地推廣到看不見的場景。

        為了解決這個問題,有研究者提出了一種新穎的對抗性評分網(wǎng)絡(luò) (ASNet),以逐步彌合域之間從粗粒度到細(xì)粒度的差距。具體來說,在粗粒度階段,設(shè)計了一種雙鑒別器策略,通過對抗性學(xué)習(xí),從全局和局部特征空間的角度使源域接近目標(biāo)。兩個域之間的分布因此可以大致對齊。在細(xì)粒度階段,通過基于粗階段得出的生成概率對源樣本與來自多個級別的目標(biāo)樣本的相似程度進(jìn)行評分來探索源特征的可轉(zhuǎn)移性。由這些分層分?jǐn)?shù)引導(dǎo),正確選擇可轉(zhuǎn)移的源特征,以增強(qiáng)適應(yīng)過程中的知識傳輸。通過從粗到細(xì)的設(shè)計,可以有效緩解由域差異引起的泛化瓶頸。

        image.png

        生成器將輸入圖像編碼為密度圖。然后雙鑒別器將密度圖分類為源域或目標(biāo)域。通過生成器和雙鑒別器之間的對抗訓(xùn)練,域分布接近。同時,雙鑒別器進(jìn)一步產(chǎn)生四種類型的分?jǐn)?shù)作為信號來指導(dǎo)源數(shù)據(jù)的密度優(yōu)化,從而在適應(yīng)過程中實(shí)現(xiàn)細(xì)粒度轉(zhuǎn)移。

        4實(shí)驗(yàn)及可視化

        微信圖片_20220210173146.png

        研究者考慮了從ShanghaiTech Part A到Trancos的實(shí)驗(yàn),如上表所示。顯然,所提出的方法比現(xiàn)有的適應(yīng)方法提高了2.9%。

        image.png

        由雙重鑒別器生成的不同級別(分別為像素、補(bǔ)丁像素、補(bǔ)丁、圖像)級別分?jǐn)?shù)的可視化。圖中的正方形代表一個標(biāo)量。注意白色方塊代表1,黑色方塊代表0。

        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 高雄县| 依安县| 保德县| 修水县| 东明县| 丽江市| 神池县| 莱州市| 上思县| 合山市| 垣曲县| 庆安县| 乐陵市| 无棣县| 鲁山县| 吉林省| 繁昌县| 泰和县| 阳曲县| 巴青县| 韶关市| 武义县| 绥德县| 平远县| 锡林浩特市| 封丘县| 西城区| 达州市| 达拉特旗| 西畴县| 卢龙县| 德州市| 和硕县| 富裕县| 上饶市| 荆州市| 桂东县| 仁寿县| 金阳县| 保山市| 得荣县|