博客專欄

        EEPW首頁 > 博客 > 零障礙合并兩個模型,大型ResNet模型線性連接只需幾秒,神經網絡啟發性新研究

        零障礙合并兩個模型,大型ResNet模型線性連接只需幾秒,神經網絡啟發性新研究

        發布人:機器之心 時間:2022-09-15 來源:工程師 發布文章
        這篇論文探討了置換對稱性(permutation symmetry)如何在 SGD 解決方案的線性模式連接中發揮重要作用。

        深度學習能夠取得如此成就,得益于其能夠相對輕松地解決大規模非凸優化問題。盡管非凸優化是 NP 困難的,但一些簡單的算法,通常是隨機梯度下降(SGD)的變體,它們在實際擬合大型神經網絡時表現出驚人的有效性。

        本文中,來自華盛頓大學的多位學者撰文《 Git Re-Basin: Merging Models modulo Permutation Symmetries 》,他們研究了在深度學習中,SGD 算法在高維非凸優化問題上的不合理有效性。他們受到三個問題的啟發:

        1. 為什么 SGD 在高維非凸深度學習損失 landscapes 的優化中表現良好,而在其他非凸優化設置中,如 policy 學習、軌跡優化和推薦系統的穩健性明顯下降 ?


        2. 局部極小值在哪里?在初始化權值和最終訓練權值之間進行線性插值時,為什么損失會平滑、單調地減小?


        3. 兩個獨立訓練的模型,它們具有不同的隨機初始化和數據批處理順序,為何會實現幾乎相同的性能?此外,為什么它們的訓練損失曲線看起來一樣


        圖片


        論文地址:https://arxiv.org/pdf/2209.04836.pdf


        本文認為:在模型訓練中存在一些不變性,這樣一來才會有不同的訓練表現出幾乎相同的性能。


        為什么會這樣呢?2019 年,Brea 等人注意到神經網絡中的隱藏單元具有置換對稱性。簡單的說就是:我們可以交換網絡中隱藏層的任意兩個單元,而網絡功能將保持不變。2021 年 Entezari 等人推測,這些置換對稱可能允許我們在權值空間中線性連接點,而不損害損失。


        下面我們以論文作者之一的舉例來說明文章主旨,這樣大家會更清楚。

        假如說你訓練了一個 A 模型,你的朋友訓練了一個 B 模型,這兩個模型訓練數據可能不同。沒關系,使用本文提出的 Git Re-Basin,你能在權值空間合并這兩個模型 A+B,而不會損害損失。


        圖片


        論文作者表示,Git Re-Basin 可適用于任何神經網絡(NN),他們首次演示了在兩個獨立訓練(沒有預先訓練)的模型(ResNets)之間,可以零障礙的線性連通。


        他們發現,合并能力是 SGD 訓練的一個屬性,在初始化時合并是不能工作的,但是會發生相變,因此隨著時間的推移合并將成為可能。


        圖片


        他們還發現,模型寬度與可合并性密切相關,即越寬越好。


        圖片


        此外,并非所有架構都能合并:VGG 似乎比 ResNets 更難合并。


        這種合并方法還有其他優點,你可以在不相交和有偏差的數據集上訓練模型,然后在權值空間中將它們合并在一起。例如,你有一些數據在美國,一些在歐盟。由于某些原因,不能混合數據。你可以先訓練單獨的模型,然后合并權重,最后泛化到合并的數據集。


        圖片


        因此,在不需要預訓練或微調的情況下可以混合訓練過的模型。作者表示自己很想知道線性模式連接和模型修補的未來發展方向,可能會應用到聯邦學習、分布式訓練以及深度學習優化等領域。


        最后還提到,章節 3.2 中的權重匹配算法只需 10 秒左右即可運行,所以節省了大量時間。論文第 3 章也介紹了 A 模型與 B 模型單元匹配的三種方法,對匹配算法還不清楚的小伙伴,可以查看原論文。


        網友評論及作者解疑


        這篇論文在推特上引發了熱議,PyTorch 聯合創始人 Soumith Chintala 表示如果這項研究可以遷移到更大的設置,則它可以實現的方向會更棒。合并兩個模型(包括權重)可以擴展 ML 模型開發,并可能在開源的共同開發模型中發揮巨大作用。


        圖片


        另有人認為如果置換不變性能夠這樣高效地捕捉大部分等價性,它將為神經網絡的理論研究提供啟發。


        圖片


        論文一作、華盛頓大學博士 Samuel Ainsworth 也解答了網友提出的一些問題。


        首先有人問,「論文中是否有關于在訓練中針對獨特 basin 的任何提示?如果有一種方法可以做到對置換進行抽象,那么訓練速度可能會更快。」


        Ainsworth 回復稱,這點自己沒有想到。他真的希望能夠以某種方式實現更快地訓練,但目前為止已被證明非常困難。問題在于 SGD 本質上是一種局部搜索,因此利用高階幾何并不是那么容易。也許分布式訓練是一種可行的方法。


        圖片


        還有人問是否適用于 RNN 和 Transformers?Ainsworth 表示原則上適用,但他還沒有對此進行實驗。時間會證明一切。


        圖片


        最后有人提出,「這看起來對分布式訓練『成真』非常重要?難道 DDPM(去噪擴散概率模型)不使用 ResNet 殘差塊嗎?」


        Ainsworth 回復稱,雖然他自己對 DDPM 不是很熟悉,但直言不諱表示將它用于分布式訓練將非常令人興奮。


        圖片



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 株洲县| 安溪县| 普兰店市| 东乡县| 尚志市| 玉环县| 深水埗区| 南岸区| 阜新| 招远市| 兴宁市| 兴业县| 西乌| 洛南县| 育儿| 依安县| 静安区| 枞阳县| 台山市| 开封县| 韶山市| 渑池县| 仙居县| 新闻| 长白| 沅江市| 抚顺县| 任丘市| 太保市| 龙口市| 和政县| 来宾市| 天津市| 贵溪市| 博湖县| 阜宁县| 郑州市| 宜宾市| 纳雍县| 新源县| 藁城市|