博客專欄

EEPW首頁 > 博客 > 【伯克利博士論文】高效、可擴(kuò)展的視覺識別神經(jīng)體系結(jié)構(gòu)

【伯克利博士論文】高效、可擴(kuò)展的視覺識別神經(jīng)體系結(jié)構(gòu)

發(fā)布人：數(shù)據(jù)派THU 時間：2022-08-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

來源：專知

ConvNets和其他神經(jīng)體系結(jié)構(gòu)在計(jì)算機(jī)視覺方面的成功應(yīng)用是過去十年人工智能革命的核心。對于可擴(kuò)展視覺架構(gòu)的強(qiáng)烈需求是既小又大。小型模型代表了對效率的需求，因?yàn)橐曈X識別系統(tǒng)通常部署在邊緣設(shè)備上;大型模型強(qiáng)調(diào)了對可擴(kuò)展性的追求——利用日益豐富的計(jì)算和數(shù)據(jù)實(shí)現(xiàn)更高精度的能力。這兩個方向的研究都是卓有成效的，產(chǎn)生了許多有用的設(shè)計(jì)原則，對更多性能模型的追求從未停止。同時，文獻(xiàn)中非常快的發(fā)展速度有時會掩蓋某些方法取得良好結(jié)果的主要機(jī)制。在本論文中，我們將從兩個方面展開研究:(1)開發(fā)高效靈活的ConvNet模型推理直觀算法;(2)研究基線方法，揭示流行可擴(kuò)展方法成功背后的原因。首先，我們將介紹我們對第一個隨時密集預(yù)測算法之一的工作。然后，我們將通過將模型修剪算法與一個極其簡單的基線進(jìn)行比較來檢驗(yàn)它們的有效性，并論證它們的真正價值可能在于學(xué)習(xí)架構(gòu)。最后，通過采用《Transformers》中的設(shè)計(jì)技術(shù)對傳統(tǒng)的ConvNet進(jìn)行現(xiàn)代化改造，我們提出了關(guān)于自注意力是否導(dǎo)致了Transformer最近出色的視覺擴(kuò)展性的問題。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.html

深度學(xué)習(xí)的基本原理[103]可以追溯到幾十年前，20世紀(jì)80年代提出了基于梯度的反向傳播學(xué)習(xí)算法[151]，而ConvNets從早期就被應(yīng)用于手寫數(shù)字識別等計(jì)算機(jī)視覺任務(wù)[105]。然而，深度學(xué)習(xí)的真正威力直到2012年才被揭示出來，那年AlexNet[99]贏得了ImageNet大規(guī)模圖像分類挑戰(zhàn)賽[34]。數(shù)據(jù)可用性的提高[34,110]、計(jì)算技術(shù)的進(jìn)步[124,134]和改進(jìn)的算法[64,181,95]是深度學(xué)習(xí)在各個應(yīng)用領(lǐng)域持續(xù)成功的三大支柱[93,159]。隨著最近大型模型的興起，這一領(lǐng)域的快速發(fā)展還沒有顯示出放緩的跡象[13,144]。

深度學(xué)習(xí)不僅對我們的日常生活產(chǎn)生了顯著的影響，還改變了機(jī)器學(xué)習(xí)從業(yè)者和研究人員的工作流程——社區(qū)已經(jīng)從使用手工制作的淺層模型特征[123,32](如SVM[27])，轉(zhuǎn)向使用多層深度神經(jīng)網(wǎng)絡(luò)自動提取特征表示。手工制作的特性通常是高度特定于任務(wù)的，而且不能一般化，設(shè)計(jì)它們的過程通常很乏味。這種轉(zhuǎn)變極大地解放了研究人員的雙手和思想，允許他們更多地專注于建模方面。

自動表示學(xué)習(xí)的前景令人鼓舞，但實(shí)際情況并非如此光明。在實(shí)踐中，網(wǎng)絡(luò)結(jié)構(gòu)對學(xué)習(xí)到的表征的質(zhì)量有很大的影響。當(dāng)網(wǎng)絡(luò)在各種下游任務(wù)上進(jìn)行微調(diào)時，學(xué)習(xí)表征的質(zhì)量也會傳播到準(zhǔn)確性。因此，設(shè)計(jì)正確的神經(jīng)網(wǎng)絡(luò)架構(gòu)現(xiàn)在是至關(guān)重要的，因此人類的任務(wù)是設(shè)計(jì)架構(gòu)，而不是功能。在計(jì)算機(jī)視覺中，經(jīng)典的AlexNet是一個復(fù)雜的手工設(shè)計(jì)卷積神經(jīng)網(wǎng)絡(luò)的例子——層、內(nèi)核大小、特征映射大小、深度、寬度和其他配置都是由人類精心選擇和平衡的。從那時起，各種各樣的神經(jīng)網(wǎng)絡(luò)架構(gòu)被提出，不僅本身作為特征提取器有用，而且?guī)砹诵碌脑O(shè)計(jì)原則。VGGNet[161]填充了3 × 3內(nèi)核卷積的使用，是同構(gòu)網(wǎng)絡(luò)設(shè)計(jì)的先驅(qū)例子。ResNet[64]引入了剩余連接，使數(shù)百層的訓(xùn)練網(wǎng)絡(luò)成為可能。Transformers [181,39]采用多頭自注意力作為一種新的網(wǎng)絡(luò)內(nèi)部信息交換方式，在大規(guī)模訓(xùn)練中表現(xiàn)優(yōu)異。神經(jīng)體系結(jié)構(gòu)搜索方法[2189]試圖實(shí)現(xiàn)神經(jīng)體系結(jié)構(gòu)設(shè)計(jì)的自動化，同時從人類設(shè)計(jì)的網(wǎng)絡(luò)中借鑒搜索空間設(shè)計(jì)的智慧[141]。這一領(lǐng)域的不斷創(chuàng)新，加上其他訓(xùn)練技術(shù)，已經(jīng)將ImageNet上排名前1的圖像分類精度從AlexNet的62.5%提高到現(xiàn)在的近90%。在架構(gòu)設(shè)計(jì)的各種目標(biāo)中，效率和可擴(kuò)展是兩個重要的概念。

這兩個方向的研究進(jìn)展都是卓有成效的，許多有用的架構(gòu)設(shè)計(jì)原則被后來的工作所采用。這是一段非凡的旅程，該領(lǐng)域仍在以驚人的速度發(fā)展。同時，部分由于在實(shí)驗(yàn)中有太多詳細(xì)的設(shè)計(jì)選擇和超參數(shù)，在性能基準(zhǔn)上進(jìn)行系統(tǒng)范圍的比較是很常見的，研究人員可以選擇有利的配置，并為他們的方法配備額外的技術(shù)。這可能導(dǎo)致無法確定實(shí)證收益的來源[112]。基線方法有時沒有被充分地調(diào)整或調(diào)整，導(dǎo)致我們無法理解所提議的方法的真正有效性。在本論文中，除了提出一種新的高效架構(gòu)框架外，我們還采取了批判性的視角，對那些被認(rèn)為是瑣碎或過時的基線的方法或模型進(jìn)行了實(shí)證研究。我們發(fā)現(xiàn)，當(dāng)提供正確的技術(shù)時，它們具有驚人的競爭力。這使我們對某些新方法的潛在機(jī)制有了更深入的理解，并幫助我們更公平、更準(zhǔn)確地評價它們的有效性。

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

linux操作系統(tǒng)文章專題:linux操作系統(tǒng)詳解（linux不再難懂）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

【伯克利博士論文】高效、可擴(kuò)展的視覺識別神經(jīng)體系結(jié)構(gòu)

相關(guān)推薦

技術(shù)專區(qū)