博客專欄

EEPW首頁 > 博客 > NeurIPS'22｜Hinton團(tuán)隊(duì)開源：用一個(gè)統(tǒng)一的接口處理四大視覺任務(wù)

NeurIPS'22｜Hinton團(tuán)隊(duì)開源：用一個(gè)統(tǒng)一的接口處理四大視覺任務(wù)

發(fā)布人：AI科技大本營時(shí)間：2023-02-21 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

論文鏈接：https://arxiv.org/pdf/2206.07669v2.pdf源碼鏈接：https://github.com/google-research/pix2seq
簡介

訓(xùn)練能夠執(zhí)行無數(shù)個(gè)任務(wù)的單個(gè)神經(jīng)網(wǎng)絡(luò)模型是邁向通用人工智能的重要一步。在NLP領(lǐng)域，許多NLP相關(guān)任務(wù)都可以統(tǒng)一在大型語言模型下進(jìn)行。主要原因是這些任務(wù)可以用相同的界面表示。而相似的方法目前在計(jì)算機(jī)視覺只能用于圖像描述和圖像問答任務(wù)，主要是因?yàn)檩敵鍪亲匀徽Z言形式的，主題的計(jì)算機(jī)詩句任務(wù)有不同的輸出，不能像NLP有類似的表示。
本文提出了一種將四個(gè)看似不同的視覺任務(wù)（目標(biāo)檢測，實(shí)例分割，關(guān)鍵點(diǎn)檢測，圖像描述）統(tǒng)一在單個(gè)像素到序列界面中的方法。本文方法是對在目標(biāo)檢測任務(wù)中使用的Pix2Seq模型到一系列任務(wù)的擴(kuò)展。
本文框架

令牌化的統(tǒng)一接口

一般認(rèn)為不同的計(jì)算機(jī)視覺輸出是完全不同的。比如本文關(guān)注的四個(gè)任務(wù)：目標(biāo)檢測任務(wù)需要模型產(chǎn)生對所有物體的包圍框，且沒有重復(fù)。實(shí)例分割任務(wù)需要模型產(chǎn)生對每一個(gè)物體的密集像素掩碼。人體關(guān)鍵點(diǎn)檢測需要模型生成與人體部位上的標(biāo)志的特定位置相對應(yīng)的點(diǎn)。圖像描述需要模型產(chǎn)生與圖像對應(yīng)的自然語言描述。
本文方法提出一種對于四個(gè)關(guān)注任務(wù)的序列接口，即所有任務(wù)的描述和輸出都表示為若干離散令牌組成的序列。

目標(biāo)檢測：一個(gè)物體由五個(gè)離散令牌表示，。每次訓(xùn)練樣本時(shí)多個(gè)物體隨機(jī)采樣序列化后形成最終令牌。
實(shí)例分割：這里預(yù)測實(shí)例掩碼的多邊形描述，并將多邊形描述為一序列的坐標(biāo)，并將坐標(biāo)轉(zhuǎn)為離散令牌。這里每次采樣訓(xùn)練圖片對應(yīng)的開始點(diǎn)的開始令牌是隨機(jī)的。如果存在相同實(shí)例的多個(gè)多邊形，通過一個(gè)分割令牌聚集每個(gè)多邊形的表示序列。
關(guān)鍵點(diǎn)檢測：類似地，這里也是用一系列坐標(biāo)表示關(guān)鍵點(diǎn)檢測結(jié)果，。這里為了簡潔省略了關(guān)鍵點(diǎn)類別標(biāo)簽。如果某個(gè)關(guān)鍵點(diǎn)被遮擋，相應(yīng)的坐標(biāo)令牌被一個(gè)特別的令牌取代。
圖像描述：直接預(yù)測離散的文本令牌。

統(tǒng)一的架構(gòu)和損失函數(shù)

這里使用常用的encoder-decoder架構(gòu)，包括一個(gè)圖像編碼器和一個(gè)序列****。圖像編碼器接收像素信息映射到隱藏的表示，一般用CNN，Transformer或組合架構(gòu)。
與Pix2Seq方法只關(guān)注單一任務(wù)不同的是，****以一個(gè)任務(wù)的prompt為條件，直接為單個(gè)目標(biāo)檢測任務(wù)產(chǎn)生輸出token，以便模型可以產(chǎn)生適應(yīng)于關(guān)注任務(wù)的輸出。在訓(xùn)練期間，模型將prompt和期望的輸出連接到單個(gè)序列中，利用token加權(quán)方案確保****只被訓(xùn)練來預(yù)測期望的輸出，而不是prompt令牌。在推理過程中，prompt是給定的，并且是固定的，所以****只需要產(chǎn)生序列的其余部分。類似于Pix2Seq方法，訓(xùn)練目標(biāo)是最大化基于圖像的令牌和之前的令牌的似然性。
多個(gè)任務(wù)的訓(xùn)練

這里給出兩種不同任務(wù)訓(xùn)練數(shù)據(jù)合并的方法：

數(shù)據(jù)混合。合并不同任務(wù)的圖像和相應(yīng)輸出序列。優(yōu)點(diǎn)是構(gòu)建很簡單，但很難加入圖像增廣。
批混合。采樣不同任務(wù)的圖像，經(jīng)適合當(dāng)前任務(wù)的增廣處理，合并令牌化的輸出序列得到圖像-序列對。這種方法可以獨(dú)立地為了一個(gè)任務(wù)計(jì)算損失和梯度，并以合適的權(quán)重融合不同任務(wù)的梯度。

本文方法考慮使用批混合策略。
推斷

在推理階段，在序列的開頭給出一個(gè)prompt，然后從模型的似然分布中采樣令牌。令牌得到后就可以為每個(gè)任務(wù)解碼。
實(shí)驗(yàn)

表1給出了實(shí)驗(yàn)結(jié)果。比較的模型包括：單一模型：模型用相同的架構(gòu)和損失函數(shù)在單一任務(wù)上訓(xùn)練，每個(gè)任務(wù)有自己的網(wǎng)絡(luò)權(quán)重。多任務(wù)模型：單一的網(wǎng)絡(luò)權(quán)重用于全部四個(gè)任務(wù)。結(jié)果表明本文方法可以在每一個(gè)任務(wù)上與baseline相比都能取得有競爭力的結(jié)果（甚至是較小圖像尺寸輸入條件下）。

圖4給出了如何選擇合適的各任務(wù)損失函數(shù)加權(quán)系數(shù)。這里使用貪心策略。圖4（a）給出了搜素目標(biāo)檢測與實(shí)例分割間權(quán)重比例的搜索結(jié)果。可以看出在一個(gè)較廣的范圍內(nèi)，兩個(gè)任務(wù)的性能都接近峰值。之后實(shí)驗(yàn)簡單選擇2：8的權(quán)重比例。加入圖像描述任務(wù)后，在9：1的權(quán)重比例下是對當(dāng)前任務(wù)是較合適的。加入關(guān)鍵點(diǎn)檢測后發(fā)現(xiàn)權(quán)重能設(shè)置的較小，這里選擇為0.01。

部分圖片可視化結(jié)果：

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

NeurIPS'22｜Hinton團(tuán)隊(duì)開源：用一個(gè)統(tǒng)一的接口處理四大視覺任務(wù)

相關(guān)推薦

技術(shù)專區(qū)