ResNet50 文藝復(fù)興 | ViT 原作者讓 ResNet50 精度達(dá)到82.8%,完美起飛!!!
以下文章來源于集智書童 ,作者ChaucerG
作者丨ChaucerG來源丨集智書童
1簡(jiǎn)介在計(jì)算機(jī)視覺方面,實(shí)現(xiàn)最先進(jìn)性能的大型模型與實(shí)際應(yīng)用中簡(jiǎn)單的模型之間的差距越來越大。在本文中,將解決這個(gè)問題,并顯著地彌補(bǔ)這2種模型之間的差距。
在實(shí)證研究中,作者的目標(biāo)不是一定要提出一種新的方法,而是努力確定一種穩(wěn)健和有效的配置方案,使最先進(jìn)的大模型在實(shí)踐中能夠得到應(yīng)用。本文證明了在正確使用的情況下,知識(shí)蒸餾可以在不影響大模型性能的情況下減小它們的規(guī)模。作者還發(fā)現(xiàn)有某些隱式的設(shè)計(jì)選擇可能會(huì)極大地影響蒸餾的有效性。
作者的主要貢獻(xiàn)是明確地識(shí)別了這些設(shè)計(jì)選擇。作者通過一項(xiàng)全面的實(shí)證研究來支持本文的發(fā)現(xiàn),在廣泛的視覺數(shù)據(jù)集上展示了很不錯(cuò)的結(jié)果,特別是,為ImageNet獲得了最先進(jìn)的ResNet-50模型,達(dá)到了82.8%的Top-1精度。
大型視覺模型目前主導(dǎo)著計(jì)算機(jī)視覺的許多領(lǐng)域。最新的圖像分類、目標(biāo)檢測(cè)或語義分割模型都將模型的大小推到現(xiàn)代硬件允許的極限。盡管它們的性能令人印象深刻,但由于計(jì)算成本高,這些模型很少在實(shí)踐中使用。
相反,實(shí)踐者通常使用更小的模型,如ResNet-50或MobileNet等,這些模型運(yùn)行起來代價(jià)更低。根據(jù)Tensorflow Hub的5個(gè)BiT的下載次數(shù),最小的ResNet-50的下載次數(shù)明顯多于較大的模型。因此,許多最近在視覺方面的改進(jìn)并沒有轉(zhuǎn)化為現(xiàn)實(shí)世界的應(yīng)用程序。
為了解決這個(gè)問題,本文將專注于以下任務(wù):給定一個(gè)特定的應(yīng)用程序和一個(gè)在它上性能很好的大模型,目標(biāo)是在不影響性能的情況下將模型壓縮到一個(gè)更小、更高效的模型體系結(jié)構(gòu)。針對(duì)這個(gè)任務(wù)有2種廣泛使用的范例:模型剪枝和知識(shí)蒸餾。
模型剪枝通過剝離大模型的各個(gè)部分來減少大模型的大小。這個(gè)過程在實(shí)踐中可能會(huì)有限制性:首先,它不允許更改模型族,比如從ResNet到MobileNet。其次,可能存在依賴于架構(gòu)的挑戰(zhàn);例如,如果大模型使用GN,修剪通道可能導(dǎo)致需要?jiǎng)討B(tài)地重新分配通道組。
相反,作者專注于沒有這些缺點(diǎn)的知識(shí)蒸餾方法。知識(shí)蒸餾背后的理念是“提煉”一個(gè)教師模型,在本文例子中,一個(gè)龐大而繁瑣的模型或模型集合,制成一個(gè)小而高效的學(xué)生模型。這是通過強(qiáng)迫學(xué)生模型的預(yù)測(cè)與教師模型的預(yù)測(cè)相匹配,從而自然地允許模型家族的變化作為壓縮的一部分。
圖1
密切遵循Hinton的原始蒸餾配置,發(fā)現(xiàn)如果操作正確,它驚人地有效;如圖1所示作者將蒸餾解釋為匹配教師和學(xué)生實(shí)現(xiàn)的函數(shù)的任務(wù)。通過這種解釋發(fā)現(xiàn)對(duì)模型壓縮的知識(shí)蒸餾的2個(gè)關(guān)鍵原則。
首先,教師和學(xué)生模型應(yīng)該處理完全相同的輸入圖像,或者更具體地說,相同的裁剪和數(shù)據(jù)增強(qiáng);
其次,希望函數(shù)在大量的支撐點(diǎn)上匹配,以便更好地推廣。
使用Mixup的變體,可以在原始圖像流形外生成支撐點(diǎn)。考慮到這一點(diǎn),通過實(shí)驗(yàn)證明,一致的圖像視圖、合適的數(shù)據(jù)增強(qiáng)和非常長(zhǎng)的訓(xùn)練計(jì)劃是通過知識(shí)蒸餾使模型壓縮在實(shí)踐中工作良好的關(guān)鍵。
盡管發(fā)現(xiàn)明顯很簡(jiǎn)單,但有很多種原因可能會(huì)阻止研究人員(和從業(yè)者)做出建議的設(shè)計(jì)選擇。
首先,很容易預(yù)先計(jì)算教師對(duì)離線圖像的激活量,以節(jié)省計(jì)算量,特別是對(duì)于非常大的教師模型;
其次,知識(shí)蒸餾也通常用于不同的上下文(除了模型壓縮),其中作者推薦不同甚至相反的設(shè)計(jì)選擇;
組后,知識(shí)蒸餾需要比較多的Epoch來達(dá)到最佳性能,比通常用于監(jiān)督訓(xùn)練的Epoch要多得多。更糟糕的是,在常規(guī)時(shí)間的訓(xùn)練中看起來不理想的選擇往往是最好的,反之亦然。
在本文的實(shí)證研究中,主要集中于壓縮大型BiT-ResNet-152x2,它在ImageNet-21k數(shù)據(jù)集上預(yù)訓(xùn)練,并對(duì)感興趣的相關(guān)數(shù)據(jù)集進(jìn)行微調(diào)。在不影響精度的情況下,將其蒸餾為標(biāo)準(zhǔn)的ResNet-50架構(gòu)(用GN代替BN)。還在ImageNet數(shù)據(jù)集上取得了非常強(qiáng)的結(jié)果:總共有9600個(gè)蒸餾周期,在ImageNet上得到了新的ResNet-50SOTA結(jié)果,達(dá)到了驚人的82.8%。這比原始的ResNet-50模型高出4.4%,比文獻(xiàn)中最好的ResNet-50模型高出2.2%。
最后,作者還證明了本文的蒸餾方案在同時(shí)壓縮和更改模型時(shí)也可以工作,例如BiT-ResNet架構(gòu)到MobileNet架構(gòu)。
2實(shí)驗(yàn)配置2.1 Datasets, metrics and evaluation protocol在5個(gè)流行的圖像分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):flowers102,pets,food101,sun397和ILSVRC-2012(“ImageNet”)。這些數(shù)據(jù)集跨越了不同的圖像分類場(chǎng)景;特別是,它們的類的數(shù)量不同,從37到1000個(gè)類,訓(xùn)練圖像的總數(shù)從1020到1281167個(gè)不等。
2.2 Teacher and student models在本文中,選擇使用來自BiT的預(yù)訓(xùn)練教師模型,該模型提供了大量在ILSVRC-2012和ImageNet-21k數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet模型,具有最先進(jìn)的準(zhǔn)確性。BiT-ResNets與標(biāo)準(zhǔn)ResNets唯一顯著的區(qū)別是使用了GN層和權(quán)重標(biāo)準(zhǔn)化。
特別地專注于BiT-M-R152x2架構(gòu):在ImageNet-21k上預(yù)訓(xùn)練的BiT-ResNet-152x2(152層,“x2”表示寬度倍數(shù))。該模型在各種視覺基準(zhǔn)上都顯示出了優(yōu)異的性能,而且它仍然可以使用它進(jìn)行廣泛的消融研究。盡管如此,它的部署成本還是很昂貴的(它需要比標(biāo)準(zhǔn)ResNet-50多10倍的計(jì)算量),因此該模型的有效壓縮具有實(shí)際的重要性。對(duì)于學(xué)生模型的架構(gòu),使用了一個(gè)BiT-ResNet-50變體,為了簡(jiǎn)潔起見,它被稱為ResNet-50。
2.3 Distillation loss這里使用教師模型的和學(xué)生模型的之間的KL散度作為一個(gè)蒸餾損失來預(yù)測(cè)類概率向量。對(duì)于原始數(shù)據(jù)集的硬標(biāo)簽,不使用任何額外的損失:C是類別。這里還引入了一個(gè)溫度參數(shù)T,用于在損失計(jì)算之前調(diào)整預(yù)測(cè)的softmax-probability分布的熵:
為了優(yōu)化,使用帶有默認(rèn)參數(shù)的Adam優(yōu)化器訓(xùn)練模型。還使用了不帶有Warm up的余弦學(xué)習(xí)率機(jī)制。作者同時(shí)還為所有的實(shí)驗(yàn)使用了解耦的權(quán)重衰減機(jī)制。為了穩(wěn)定訓(xùn)練,在梯度的全局l2范數(shù)上以1.0的閾值進(jìn)行梯度裁剪。最后,除在ImageNet上訓(xùn)練的模型使用batch size為4096進(jìn)行訓(xùn)練外,對(duì)其他所有實(shí)驗(yàn)都使用batch size為512。本文的方案的另一個(gè)重要組成部分是Mixup數(shù)據(jù)增強(qiáng)策略。特別在“函數(shù)匹配”策略中中引入了一個(gè)Mixup變量,其中使用從[0,1]均勻抽樣的較強(qiáng)的Mixup系數(shù),這可以看作是最初提出的β分布抽樣的一個(gè)極端情況。作者還使用了““inception-style”的裁剪,然后將圖像的大小調(diào)整為固定的正方形大小。此外,為了能夠廣泛的分析在計(jì)算上的可行(訓(xùn)練了數(shù)十萬個(gè)模型),除了ImageNet實(shí)驗(yàn),使用標(biāo)準(zhǔn)輸入224×224分辨率,其他數(shù)據(jù)集均使用相對(duì)較低的輸入分辨率,并將輸入圖像的大小調(diào)整為128×128大小。
3模型蒸餾3.1 “consistent and patient teacher”假說在本節(jié)中,對(duì)介紹中提出的假設(shè)進(jìn)行實(shí)驗(yàn)驗(yàn)證,如圖1所示,當(dāng)作為函數(shù)匹配時(shí),蒸餾效果最好,即當(dāng)學(xué)生和教師模型輸入圖像是一致視圖時(shí),通過mixup合成“filled”,當(dāng)學(xué)生模型接受長(zhǎng)時(shí)間的訓(xùn)練時(shí)(即“教師”很有耐心)。為了確保假說的穩(wěn)健性,作者對(duì)4個(gè)中小型數(shù)據(jù)集進(jìn)行了非常徹底的分析,即Flowers102,Pets,Food101,Sun397進(jìn)行了訓(xùn)練。為了消除任何混雜因素,作者對(duì)每個(gè)精餾設(shè)定使用學(xué)習(xí)速率{0.0003,0.001,0.003,0.01}與權(quán)重衰減{,,,,以及蒸餾溫度{1,2,5,10}的所有組合。
首先,證明了一致性標(biāo)準(zhǔn),即學(xué)生和教師看到相同的視圖,是執(zhí)行蒸餾的唯一方法,它可以在所有數(shù)據(jù)集上一致地達(dá)到學(xué)生模型的最佳表現(xiàn)。在本研究中,定義了多個(gè)蒸餾配置,它們對(duì)應(yīng)于圖1中所示的所有4個(gè)選項(xiàng)的實(shí)例化:
1 Fixed teacher作者探索了幾個(gè)選項(xiàng),其中教師模型的預(yù)測(cè)是恒定的,為一個(gè)給定的圖像。
- 最簡(jiǎn)單(也是最差的)的方法是fix/rs,即學(xué)生和老師的圖像大小都被調(diào)整到224x224pixel。
- fix/cc遵循一種更常見的方法,即教師使用固定的central crop,而學(xué)生使用random crop。
- fix/ic_ens是一種重?cái)?shù)據(jù)增強(qiáng)方法,教師模型的預(yù)測(cè)是1024種inception crops的平均值,我們驗(yàn)證了以提高教師的表現(xiàn)。該學(xué)生模型使用random crop。
用2種方式實(shí)例化了這種常見的策略:
- ind/rc分別為教師和學(xué)生計(jì)算2種獨(dú)立的random crop;
- ind/ic則使用heavy inception crop。
在這種方法中,只對(duì)圖像進(jìn)行隨機(jī)裁剪一次,要么是mild random cropping(same/rc),要么是heavy inception crop(same/ic),并使用相同的crop向?qū)W生和教師模型提供輸入。
4 Function matching這種方法擴(kuò)展了consistent teaching,通過mixup擴(kuò)展圖像的輸入,并再次為學(xué)生和教師模型提供一致的輸入。為了簡(jiǎn)潔起見,將這種方法稱為“FunMatch”。
3.1.2 Importance of “patient” teaching人們可以將蒸餾解釋為監(jiān)督學(xué)習(xí)的一種變體,其中標(biāo)簽是由一個(gè)強(qiáng)大的教師模型提供的。當(dāng)教師模型的預(yù)測(cè)計(jì)算為單一圖像視圖時(shí),這一點(diǎn)尤其正確。這種方法繼承了標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)的所有問題,例如,嚴(yán)重的數(shù)據(jù)增強(qiáng)可能會(huì)扭曲實(shí)際的圖像標(biāo)簽,而輕微的增強(qiáng)可能又會(huì)導(dǎo)致過擬合。然而,如果將蒸餾解釋為函數(shù)匹配,并且最重要的是,確保為學(xué)生和老師模型提供一致的輸入,情況就會(huì)發(fā)生變化。在這種情況下,可以進(jìn)行比較強(qiáng)的圖像增強(qiáng):即使圖像視圖過于扭曲,仍然會(huì)在匹配該輸入上的相關(guān)函數(shù)方面取得進(jìn)展。因此,可以通過增強(qiáng)來增加機(jī)會(huì),通過做比較強(qiáng)的圖像增強(qiáng)來避免過擬合,如果正確,可以優(yōu)化很長(zhǎng)一段時(shí)間,直到學(xué)生模型的函數(shù)接近教師模型的函數(shù)。在圖3中證實(shí)了作者的假設(shè),對(duì)于每個(gè)數(shù)據(jù)集,顯示了在訓(xùn)練最佳函數(shù)匹配學(xué)生模型時(shí)不同數(shù)量的訓(xùn)練Epoch的測(cè)試精度的變化。教師模型為一條紅線,經(jīng)過比在標(biāo)準(zhǔn)監(jiān)督訓(xùn)練中使用的更多的Epoch后,最終總是能夠達(dá)到。至關(guān)重要的是,即使優(yōu)化了一百萬個(gè)Epoch,也沒有過擬合的跡象。作者還訓(xùn)練和調(diào)整了另外2個(gè)Baseline以供參考:使用數(shù)據(jù)集原始硬標(biāo)簽從零開始訓(xùn)練ResNet-50,以及傳輸在ImageNet-21k上預(yù)訓(xùn)練的ResNet-50。對(duì)于這2個(gè)Baseline,側(cè)重于調(diào)整學(xué)習(xí)率和權(quán)重衰減。使用原始標(biāo)簽從零開始訓(xùn)練的模型大大優(yōu)于學(xué)生模型。值得注意的是,相對(duì)較短的100個(gè)Epoch的訓(xùn)練結(jié)果比遷移Baseline差得多。總的來說,ResNet-50的學(xué)生模型持續(xù)地匹配ResNet-152x2教師模型。
基于對(duì)前幾節(jié)的見解,作者還研究了所建議的蒸餾方案如何擴(kuò)展到廣泛使用和更具挑戰(zhàn)性的ImageNet數(shù)據(jù)集。按照與之前相同的協(xié)議,在圖4(左)中,報(bào)告了3種蒸餾設(shè)置的學(xué)生訓(xùn)練過程中的準(zhǔn)確性曲線:
- fixed teacher
- consistent teaching
- function matching
作為參考,基礎(chǔ)教師模型達(dá)到83.0%的top-1。fixed teacher再次經(jīng)過長(zhǎng)時(shí)間的訓(xùn)練計(jì)劃,并在600個(gè)Epoch后開始過度擬合。相比之下,consistent teaching方法會(huì)隨著訓(xùn)練時(shí)間的增加而不斷提高教學(xué)表現(xiàn)。由此可以得出結(jié)論,consistent是在ImageNet上進(jìn)行蒸餾工作的關(guān)鍵,類似于前面討論的中小型數(shù)據(jù)集上的結(jié)論。與簡(jiǎn)單consistent teaching相比,function matching在短時(shí)間內(nèi)的表現(xiàn)稍差,這可能是由于擬合不足造成的。但當(dāng)增加訓(xùn)練計(jì)劃的Epoch時(shí),function matching的改進(jìn)變得很明顯:例如,只有1200個(gè)Epoch,它能夠匹配4800個(gè)Epoch的consistent teaching性能,從而節(jié)省了75%的計(jì)算資源。最后,對(duì)于實(shí)驗(yàn)的最長(zhǎng)的function matching運(yùn)行,普通的ResNet-50學(xué)生架構(gòu)在ImageNet上達(dá)到了82.31%的Top-1精度。
3.3 Distilling across different input resolutions到目前為止,假設(shè)學(xué)生和教師都接收到相同的標(biāo)準(zhǔn)輸入分辨率224px。但是,可以將不同分辨率的圖像傳遞給學(xué)生和老師,同時(shí)仍然保持一致:只需在原始高分辨率上進(jìn)行裁剪圖像,然后為學(xué)生和教師模型調(diào)整不同的大小:他們的視圖將是一致,盡管分辨率不同。這種洞察力可以用于向更好、分辨率更高的教師模型學(xué)習(xí),也可以用于訓(xùn)練一個(gè)更小、更快的學(xué)生。表1作者主要研究了2個(gè)方向:首先,訓(xùn)練一個(gè)輸入分辨率為160個(gè)像素的ResNet-50學(xué)生模型,同時(shí)保持教師模型的輸入分辨率不變(224個(gè)像素)。這讓模型速度提高了一倍,仍然達(dá)到了驚人的80.49%的 top-1 準(zhǔn)確度(見表1),而在此分辨率下使用一系列修改后得到的最佳模型準(zhǔn)確率為78.8%。其次,在Big transfer之后,作者提取了一個(gè)在384px的分辨率下微調(diào)的教師模型(并達(dá)到83.7%的top-1準(zhǔn)確率),這次讓學(xué)生的分辨率保持不變,即使用224px的輸入分辨率。如表1所示,與使用224像素分辨率教師相比,提供了一致的全面改進(jìn)。
作者觀察到,由于長(zhǎng)時(shí)間的訓(xùn)練計(jì)劃,優(yōu)化效率成為“函數(shù)匹配”視角的精餾方案的一個(gè)計(jì)算瓶頸。直觀地說,作者認(rèn)為優(yōu)化困難源于這樣一個(gè)事實(shí),即用多變量輸出比固定的圖像級(jí)標(biāo)簽來擬合一般函數(shù)要困難得多。因此,作者進(jìn)行了初步探索,是否更強(qiáng)大的優(yōu)化器可以更好地完成任務(wù)。為此,我們使用二階預(yù)處理器將底層優(yōu)化器從Adam更改為Shampoo。在圖4(中)中觀察到Shampoo達(dá)到了相同的測(cè)試精度,相比Adam使用的4800個(gè)Epoch,Shampoo僅用了1200個(gè)Epoch就達(dá)到了,并且步驟時(shí)間開銷最小。而且,總的來說,在所有實(shí)驗(yàn)設(shè)置中都觀察到對(duì)Adam的持續(xù)改進(jìn)。
3.5 Optimization: A good initialization improves short runs but eventually falls behind受遷移學(xué)習(xí)的啟發(fā),良好的初始化能夠顯著縮短訓(xùn)練成本并實(shí)現(xiàn)更好的解決方案,作者嘗試用預(yù)訓(xùn)練的BiT-M-ResNet50權(quán)重初始化學(xué)生模型,結(jié)果如圖4(右)所示。當(dāng)蒸餾持續(xù)時(shí)間較短(30個(gè)epoch)時(shí),BiT-M初始化提高了2%以上。然而,當(dāng)訓(xùn)練計(jì)劃足夠長(zhǎng)時(shí),差距就會(huì)縮小。從1200個(gè)epoch開始,從頭開始訓(xùn)練1200個(gè)epoch與BiT-M初始化的學(xué)生模型相匹配,并在4800個(gè)epoch略超過它。
3.6 Distilling across different model families除了為學(xué)生和老師使用不同的輸入分辨率之外,還可以使用不同的架構(gòu),這使模型能夠有效地從更強(qiáng)大和更復(fù)雜的教師模型那里轉(zhuǎn)移知識(shí),同時(shí)保持簡(jiǎn)單的架構(gòu),如MobileNet。作者通過2個(gè)實(shí)驗(yàn)證明了這一點(diǎn)。首先,使用2個(gè)模型作為教師模型,并表明這進(jìn)一步提高了性能。其次,訓(xùn)練了一個(gè)MobileNet v3學(xué)生模型,并獲得了迄今為止最好的MobileNet v3模型。
MobileNet student作為學(xué)生模型,使用MobileNet v3(Large),對(duì)于大多數(shù)實(shí)驗(yàn),選擇使用GroupNorm(默認(rèn)為8組)而不是BatchNorm的變體。沒有使用原始論文中使用的任何訓(xùn)練技巧,只是進(jìn)行函數(shù)匹配。學(xué)生模型在 300個(gè)epoch后達(dá)到74.60%,在1200個(gè)epoch后達(dá)到76.31%,從而產(chǎn)生了最好的MobileNet v3模型。
創(chuàng)建一個(gè)模型,該模型由默認(rèn)教師模型在224像素分辨率和384像素分辨率的平均logits組成。這是一種不同但密切相關(guān)的教師模型,而且更強(qiáng)大但也更慢。在嘗試的每個(gè)時(shí)間段內(nèi),這個(gè)教師模型的學(xué)生都比默認(rèn)的教師模型的學(xué)生好,并且在9600次蒸餾之后,達(dá)到了82.82%的新的最先進(jìn)的top-1 ImageNet準(zhǔn)確率。
3.7 Comparison to the results from literature通過將知識(shí)蒸餾看作是“函數(shù)匹配”,可以得出一個(gè)合理的假設(shè),即蒸餾可以在任意的圖像輸入上進(jìn)行。到目前為止,在論文中,只使用關(guān)于感興趣任務(wù)的“域內(nèi)”數(shù)據(jù)。在本節(jié)中,將研究這個(gè)選擇的重要性。對(duì)pets和sun397數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。使用本文的蒸餾方案使用來自food101和ImageNet數(shù)據(jù)集的域外圖像來蒸餾pets和sun397模型,并且對(duì)于參考結(jié)果,還使用來自pets和sun397數(shù)據(jù)集的“域內(nèi)”圖像進(jìn)行蒸餾。圖5總結(jié)了結(jié)果。首先,觀察到使用“域內(nèi)”數(shù)據(jù)進(jìn)行蒸餾效果最好。有點(diǎn)令人驚訝的是,即使圖像完全不相關(guān),蒸餾在某種程度上仍然有效,盡管結(jié)果會(huì)變?cè)恪@纾@意味著學(xué)生模型可以通過僅查看標(biāo)記為寵物品種的食物圖像(輕柔地)以大約30%的準(zhǔn)確率來學(xué)習(xí)對(duì)寵物進(jìn)行分類。最后,如果蒸餾圖像與實(shí)際的“域內(nèi)”圖像(例如Pets和ImageNet,或sun397和ImageNet)有些相關(guān)或重疊,那么結(jié)果可能與使用“域內(nèi)”一樣好(或幾乎一樣好)數(shù)據(jù),但可能需要超長(zhǎng)的優(yōu)化周期。
為了確保觀察到的最先進(jìn)的蒸餾結(jié)果不是精心調(diào)整的訓(xùn)練設(shè)置的人工產(chǎn)物,即非常長(zhǎng)的時(shí)間表和積極的Mixup增強(qiáng),訓(xùn)練了相應(yīng)的Baseline ResNet-50模型。更具體地說,重用了精餾訓(xùn)練設(shè)置,在ImageNet數(shù)據(jù)集上進(jìn)行監(jiān)督訓(xùn)練,而不產(chǎn)生精餾損失。為了進(jìn)一步加強(qiáng)Baseline,另外嘗試了帶有動(dòng)量的SGD優(yōu)化器,眾所周知,這通常比Adam優(yōu)化器對(duì)ImageNet工作得更好。圖6結(jié)果如圖6所示。可以觀察到,有標(biāo)簽和沒有蒸餾損失的訓(xùn)練會(huì)導(dǎo)致糟糕的結(jié)果,并開始過度擬合較長(zhǎng)的訓(xùn)練時(shí)間表。因此,得出結(jié)論,蒸餾是必要的。
[1].Knowledge distillation:A good teacher is patient and consistent
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。
時(shí)間繼電器相關(guān)文章:時(shí)間繼電器