博客專欄

        EEPW首頁 > 博客 > CVPR2021提出的一些新數(shù)據(jù)集匯總

        CVPR2021提出的一些新數(shù)據(jù)集匯總

        發(fā)布人:計算機視覺工坊 時間:2022-02-08 來源:工程師 發(fā)布文章

        作者:Shwetank Panwar

        編譯:CV技術(shù)指南

        一些新發(fā)布的數(shù)據(jù)集可以提供一個窗口,通過這些數(shù)據(jù)集可以了解試圖解決的問題的復(fù)雜程度。公共領(lǐng)域中新發(fā)布的數(shù)據(jù)集可以很好地代表理解計算機視覺的發(fā)展以及有待解決的問題的新途徑。

        本文簡要總結(jié)了一些CVPR 2021 上發(fā)表的數(shù)據(jù)集論文,并通讀了論文以提取一些重要的細(xì)節(jié)。

        1. The Multi-Temporal Urban Development SpaceNet Dataset

        數(shù)據(jù)集論文:https://paperswithcode.com/paper/the-multi-temporal-urban-development-spacenet

        下載地址:https://registry.opendata.aws/spacenet/

        微信圖片_20220208193638.png

        新的 SpaceNet 數(shù)據(jù)集包含每個月拍攝的建筑區(qū)域的衛(wèi)星圖像。目標(biāo)是在空間時間序列的幫助下在全球范圍內(nèi)跟蹤這種建筑活動。

        由于其解決非常困難的全局問題的方法,這是 CVPR 中最有趣的數(shù)據(jù)集論文。該數(shù)據(jù)集試圖使用衛(wèi)星圖像分析解決量化一個地區(qū)城市化的問題,這對于沒有基礎(chǔ)設(shè)施和財政資源來建立有效的民事登記系統(tǒng)的國家來說是一個巨大的幫助。

        該數(shù)據(jù)集主要是關(guān)于使用在 18 到 26 個月的時間跨度內(nèi)捕獲的衛(wèi)星圖像跟蹤世界各地大約 101 個地點的建筑。隨著時間的推移,有超過 1100 萬條注釋帶有單個建筑物和施工現(xiàn)場的獨特像素級標(biāo)簽。

        微信圖片_20220208193641.png

        A.) 與 COCO 數(shù)據(jù)集對象相比,帶注釋的對象的大小非常小 B.) 在此數(shù)據(jù)集中,每張圖像的標(biāo)簽數(shù)量太高。C.) 像云這樣的遮擋(這里)會使跟蹤探測變得困難。D.) Spacenet 數(shù)據(jù)集中單個圖像中的帶注釋對象。

        所有這些可能使它聽起來像是一個更具挑戰(zhàn)性的對象分割和跟蹤問題。為了清楚起見,每幀大約有 30 多個對象。此外,與普通視頻數(shù)據(jù)不同,由于天氣、光照和地面季節(jié)性影響等原因,幀之間幾乎沒有一致性。這使得它比視頻分類數(shù)據(jù)集(如 MOT17 和斯坦福無人機數(shù)據(jù)集)更加困難。

        雖然這可能是一個難題,但解決它對于全球福利來說是值得的。

        2. Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges

        數(shù)據(jù)集論文:https://arxiv.org/abs/2009.03137

        下載地址:

        https://github.com/QingyongHu/SensatUrban

        微信圖片_20220208193642.png

        Sensat Urban 數(shù)據(jù)集的整體圖,包括英國約克市的連續(xù)區(qū)域,擴展到 3 平方公里。

        今年的會議重點討論了 3D 圖像處理及其相應(yīng)的方法。因此,這個名為 Sensat Urban 的數(shù)據(jù)集也不足為奇,只是這個攝影測量 3D 點云數(shù)據(jù)集比迄今為止可用的任何開源數(shù)據(jù)集都要大。它覆蓋超過7.6公里。涵蓋約克、劍橋和伯明翰的城市景觀廣場。每個點云都被標(biāo)記為 13 個語義類之一。

        該數(shù)據(jù)集有可能推動許多有前途的領(lǐng)域的研究,如自動化區(qū)域測量、智慧城市和大型基礎(chǔ)設(shè)施規(guī)劃和管理。

        圖片

        Sensat Urban 數(shù)據(jù)集中的不同分割類別。

        在論文中,他們還對點云中的顏色信息進行了實驗,并證明了在色彩豐富的點云上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)能夠在測試集上更好地泛化。這實際上為該領(lǐng)域未來應(yīng)用的發(fā)展提供了重要方向。

        3.Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

        數(shù)據(jù)集論文:https://arxiv.org/abs/2105.04489

        微信圖片_20220208193645.png

        來自 MIT 音頻字幕數(shù)據(jù)集的一些樣本 [左] 在數(shù)據(jù)集中結(jié)合視聽信息的提議架構(gòu) [右]

        這是今年另一個最受歡迎的數(shù)據(jù)集,因為它對圖像字幕和視頻摘要問題采用了略有不同的方法。通常,對于此類任務(wù),我們有像 COCO 這樣的數(shù)據(jù)集,其中包含圖像及其隨附的文本標(biāo)題。雖然這種方法已被證明是有前途的,但我們經(jīng)常忘記,在口語方面對我們的視覺體驗進行了很多豐富的總結(jié)。

        該數(shù)據(jù)集構(gòu)建了一個包含 50 萬個描述各種不同事件的短視頻音頻描述的語料庫。然而,他們并沒有止步于展示一個很棒的數(shù)據(jù)集,他們還提供了一個優(yōu)雅的解決方案來使用自適應(yīng)平均邊距(AMM)方法來解決視頻/字幕檢索問題。

        4.Conceptual 12M : Pushing Web-Scale Image-Text Pre-training to recognise Long-Tail visual concepts

        數(shù)據(jù)集論文:https://arxiv.org/abs/2102.08981

        圖片

        來自Conceptual  12M 數(shù)據(jù)集的一些圖像標(biāo)題對。雖然 alt-text 本身的信息量并不大,但它對于學(xué)習(xí)視覺概念的更廣義的文本表示非常有幫助。

        最近,由于預(yù)訓(xùn)練transformer和 CNN 架構(gòu)的性能提升,模型預(yù)訓(xùn)練獲得了極大的歡迎。通常,我們希望在一個類似的數(shù)據(jù)集上訓(xùn)練模型。然后使用遷移學(xué)習(xí)在下游任務(wù)上利用模型。

        到目前為止,唯一可用的用于預(yù)訓(xùn)練的大規(guī)模數(shù)據(jù)集是用于視覺+語言任務(wù)的 CC-3M 數(shù)據(jù)集,有 300 萬個字幕?,F(xiàn)在,谷歌研究團隊通過放寬數(shù)據(jù)抓取的限制,將該數(shù)據(jù)集擴展到 1200 萬個圖像字幕對--Conceptual 12M。

        更有趣的是生成數(shù)據(jù)集的方法。在數(shù)據(jù)集管理期間使用 Google Cloud Natural Language API 和 Google Cloud Vision API 過濾任務(wù)對于任何未來的數(shù)據(jù)集管理任務(wù)來說都是一個很好的教訓(xùn)。

        使用 12M 數(shù)據(jù)集,圖像字幕模型能夠?qū)W習(xí)長尾概念,即數(shù)據(jù)集中非常具體且罕見的概念。訓(xùn)練方法的結(jié)果令人印象深刻,并在下面進行了可視化。

        微信圖片_20220208193648.png

        在概念 12M 數(shù)據(jù)集上預(yù)訓(xùn)練的神經(jīng)圖像標(biāo)題模型的預(yù)測示例很少。

        5. Euro-PVI:密集城市中心的行人車輛交互

        數(shù)據(jù)集論文:

        https://openaccess.thecvf.com/content/CVPR2021/supplemental/Bhattacharyya_Euro-PVI_Pedestrian_Vehicle_CVPR_2021_supplemental.pdf

        微信圖片_20220208193649.png


        實時車輛-行人行為示例。預(yù)測行人將采取什么樣的軌跡來響應(yīng)接近的車輛對于構(gòu)建全自動自動駕駛汽車至關(guān)重要。

        雖然有很多關(guān)于完全自主的自動駕駛系統(tǒng)的討論,但事實仍然是,它是一個非常困難的問題,需要同時實時解決多個問題。關(guān)鍵部分之一是使這些自主系統(tǒng)了解行人對其存在的反應(yīng),在密集環(huán)境中預(yù)測行人軌跡是一項具有挑戰(zhàn)性的任務(wù)。

        因此,Euro-PVI 數(shù)據(jù)集旨在通過在行人和騎自行車者軌跡的標(biāo)記數(shù)據(jù)集上訓(xùn)練模型來解決這個問題。早些時候,斯坦福無人機、nuScenes 和 Lyft L5 等數(shù)據(jù)集專注于附近車輛的軌跡,但這只是自主系統(tǒng)完整畫面的一部分。

        Euro-PVI通過交互時的視覺場景、交互過程中的速度和加速度以及整個交互過程中的整體坐標(biāo)軌跡等信息,提供了一個全面的交互圖。

        微信圖片_20220208193653.png

        Euro-PVI 數(shù)據(jù)集包含有關(guān)行人車輛交互的豐富信息,例如場景中所有參與者的視覺場景、速度和加速度。

        所有這些信息都必須由經(jīng)過訓(xùn)練的模型映射到相關(guān)的潛在空間。為了解決潛在空間中軌跡和視覺信息的聯(lián)合表示問題,同一篇論文還提出了 Joint-B-VAE 的生成架構(gòu),這是一種經(jīng)過訓(xùn)練的變分自動編碼器,用于對參與者的軌跡進行編碼并將其解碼為未來的合成軌跡。

        微信圖片_20220208193654.png

        ground truth,Trajectron++ 預(yù)測的軌跡和聯(lián)合 B-VAE 的預(yù)測軌跡(在同一數(shù)據(jù)集論文中提出)

        原文鏈接:

        https://medium.com/@shwetank.ml/datasets-cvpr-2021-problems-that-shouldnt-be-missed-6128d07c59c3

        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 同心县| 义马市| 贡嘎县| 镇远县| 新绛县| 广宗县| 开原市| 喀喇沁旗| 繁峙县| 巴彦淖尔市| 澄迈县| 广南县| 阳新县| 建瓯市| 萝北县| 固原市| 泰安市| 洪洞县| 岳阳市| 肇东市| 随州市| 安泽县| 靖安县| 临汾市| 丰城市| 普安县| 宁蒗| 兴安盟| 郓城县| 湖南省| 中卫市| 凌海市| 绥化市| 金坛市| 和龙市| 洪洞县| 永宁县| 重庆市| 兰考县| 葫芦岛市| 房产|