研究揭秘:神經網絡越大、表現越好的“神秘力量”
以下文章來源于數據實戰派 ,作者青蘋果
對人類來說,對生拇指(opposable thumbs)的出現是一個重大的時刻。那么,如果在進化過程中大自然又賜給我們額外的拇指,人類使用工具的能力是否會更強呢?情況可能不會有太大改觀,畢竟一只手有一個拇指就夠了。
但對神經網絡而言,并非如此。
神經網絡已經成為執行類人任務(human-like)的領先AI系統。隨著其規模越來越大,理解力也隨之增強。這無疑對研究者來說,驚喜與挑戰并存。
基本的數學結果表明,網絡差不多大就可以了,但現代神經網絡的規模往往遠超出預測需求——這種情況被稱為過度參數化(over-parameterization)。
一般來說,只要參數的數量大于要滿足的方程的數量,就可以使用參數化模型類進行數據插值。
而深度學習中一個令人費解的現象是,模型的訓練參數比這個經典理論所暗示的要多得多。具體而言,求解n個方程一般只需要 n 個未知數。然而,革命性的深度學習方法圍繞著高度參數化的模型,從 n 個訓練數據點學習的參數遠遠超過 n 個。
NeurIPS 會議上發表的一篇題為“A Universal Law of Robustness via Isoperimetry”論文中,微軟研究院的 Sébastien Bubeck 和斯坦福大學的 Mark Sellke 對規模擴展成功背后的奧秘提供了新的解釋:找到一個擬合d維數據的平滑函數至少需要nd參數。
換句話說,d 因子的過度參數化對于平滑插值是必要的,這也恰好表明,深度學習中使用的大尺寸模型是有用的,而非框架的弱點。
而且,神經網絡必須比傳統的預期要大得多,才能避免某些基本問題。
這一發現為一個持續了幾十年的問題提供了普適性的見解。
“這是一個非常有趣的數學理論結果。”瑞士洛桑聯邦理工學院的Lenka Zdeborová說道。“他們以一種非常普遍的方式證明了這一點。因此,從該意義上說,它將成為計算機科學的核心。”
對神經網絡規模的標準期望,來自于對它們如何記憶數據的分析。但要理解記憶,首要做的是理解網絡。
神經網絡的一個常見任務是識別圖像中的物體。為了創建這樣的網絡,首先,研究人員需要提供大量的圖像和標簽,以訓練其學習數據之間的相關性。然后,網絡將會在所看到的圖像中進行正確地的識別。換句話說,訓練會使網絡記住數據。更值得注意的是,一旦網絡記住了足夠多的訓練數據,它還能以不同程度的準確度預測從未見過的物體標簽,即泛化。
可以說,網絡的規模決定了它的記憶量。
這點可以借助圖形的方式加以理解。想象一下,在xy平面上得到了兩個數據點。接下來,你可以將這些點與一條由兩個參數(線的斜率和穿過垂直軸時的高度)描述的線相連接。如果給定其他人這條線,以及其中一個原始數據點的x坐標,那么,他們只需查看這條線(或使用參數)就可以找出相應的y坐標。因為,這條線已經記住了這兩個數據點。
當然,神經網絡與之類似。例如,圖像由數百或數千個值描述——每個像素對應一個值。構成這個組合的自由值,在數學上就等價于高維空間中的點的坐標,而坐標的數量稱為維數。
一個古老的數學結果表明,要用曲線擬合n個數據點,需要一個包含n個參數的函數。當神經網絡在 20 世紀 80 年代首次作為一股力量出現時,思考同樣的事情是有意義的。無論數據的維度如何,他們應該只需要n個參數來擬合n個數據點。
“這不再是將會發生的事情,”德克薩斯大學奧斯汀分校的 Alex Dimakis 說。“現在,我們常規地創建神經網絡,它的參數比訓練樣本的數量還要多,這意味著書必須重寫。”
他們正在研究神經網絡需要加強的另一種特性——魯棒性,即網絡處理微小變化的能力。例如,一個魯棒性差的網絡可能已經學會了識別長頸鹿,但它會將一個幾乎沒有修改的版本錯誤地標記為沙鼠。2019 年,在 Bubeck 和同事們意識到這個問題與網絡規模有關時,也試圖進行一些與之相關的定理證明。
據研究推測,魯棒性法則應該適用于所有的兩層神經網絡。在本文中,研究團隊也證明了它實際上適用于任意光滑參數化函數類,只要參數的大小至多為多項式。而且多項式大小限制對于有界深度神經網絡是必要的。
Bubeck 說:“我們當時正在研究對抗的例子,然后網絡規模就強行加入了進來。于是,我們意識到這或許是一個令人難以置信的機會,因為涉及到了解規模本身的一系列問題。”
在研究過程中,這對搭檔證明了過度參數化對于網絡魯棒性的必要程度。隨后,他們通過計算需要多少個參數來將數據點與具有等同于魯棒性的曲線擬合,得出了平滑性(smoothness)。
為了充分理解該點,再次回想平面中的曲線,其中 x 坐標表示單個像素的顏色,y 坐標表示圖像標簽。由于曲線是平滑的,如果對像素顏色稍加修改,沿著曲線移動一小段距離,相應的預測只會發生很小的變化。另一方面,對于明顯鋸齒狀的曲線,x 坐標的微小變化可能誘發y坐標的劇烈變化。
這項研究表明,平滑擬合高維數據點并非需要 n 個參數,而是高達 n × d 個參數,其中 d 是輸入的維數(例如,對于 784 像素的圖像,d 值為 784)。
換句話說,如果你希望網絡能可靠地記憶其訓練數據,過度參數化不僅有幫助,而且是強制性的。這一證明依賴于高維幾何的一個奇怪的事實,即在球面上隨機分布的點彼此之間幾乎都是一個直徑的距離。點之間的巨大間隔意味著用一條平滑的曲線擬合它們,需要許多額外的參數。
“這個證明非常簡單——不需要復雜的數學運算,而且說明了一些非常普遍的原理,”耶魯大學的 Amin Karbasi 說。
該結果提供了一種新穎的方法,以更好地理解為什么簡單的神經網絡擴展策略卻如此有效。
除了這次的研究之外,其他相關的一些研究,也揭示了過度參數化之所以有用的原因。例如,它可以提高訓練過程的效率,以及網絡的泛化能力。雖然依據目前所知,過度參數化對于魯棒性是必要的,但尚不清楚魯棒性對其他事物究竟有多重要。但是,如果能將其與過度參數化聯系起來,新的研究便給出了明示,魯棒性極有可能比人們想象的更重要。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
電磁爐相關文章:電磁爐原理