博客專欄

EEPW首頁 > 博客 > CVPR 2023 ，BP網絡剪枝了就不好使？（2）

CVPR 2023 ，BP網絡剪枝了就不好使？（2）

發布人：計算機視覺工坊時間：2023-08-20 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

5 積分神經網絡的訓練

如今，存在各種各樣的預訓練離散網絡。因此，建立一個將此類網絡轉換為完整網絡的過程將是有益的，這種轉換后的網絡可以作為積分網絡訓練的更好的初始化。為此，作者提出了一種對權重張量的卷積核和通道進行排列的算法，以便在離散網絡中獲得平滑的結構。圖 5 提供了該策略的直觀說明。作者還提出了一種使用梯度下降來優化 INN 的平滑參數表示的算法。這使地能夠獲得一個可以重新采樣（結構修剪）的網絡，而無需在推理時進行任何微調。

6 實驗

使用 PyTorch 庫實現了數值積分的通用框架。框架允許使用自定義積分求積在 Nvidia GPU 上進行數值積分。我們的積分神經網絡使用 PyTorch 層來快速評估積分算子。人們可以使用我們的框架在積分網絡上獨立地進行多個積分的數值積分。為了驗證 INN，我們進行了圖像分類和圖像超分辨率任務的實驗。對于圖像分類，使用了 Cifar10 和 ImageNet 數據集。對于圖像超分辨率任務，選擇了分別在 Div2k 數據集和 91-image dataset數據集上訓練的 4-x EDSR和 3-x SRCNN 模型。在 Set5 、Set14 和 B100 數據集上進行驗證。主要驗證流程的示意圖如圖 6 所示。

6.1 Pipeline A. 與離散NNs的比較

使用兩種不同的初始化來訓練 INN：從頭開始和轉換后的預訓練離散網絡。可以看到，從預訓練的離散網絡微調的 INN 具有與相應離散網絡相同或更高的性能，并且顯著優于從頭訓練的 INN（見表 1）。使用算法 1 微調的 INN 可以重新采樣為任何所需大小的相應離散網絡。圖 7 顯示了 EDSR INN 與其離散對應物的比較。可以看出，即使經過 40% 的修剪，INN 仍保持幾乎相同的性能。

6.2 Pipeline B. 通過轉換為INN而不進行微調的結構化修剪

在這個實驗中，使用論文第 4 節中描述的方法通過將離散網絡轉換為 INN 來修剪離散網絡，并調整一些樣本的積分分區。結果如圖 1 所示（表示為 INN + 分區調整）。值得注意的是，排列步驟在論文的轉換算法中非常重要。事實上，當部署分區調優而不使用分區調整時，可以觀察到更高的精度下降。這與變異和積分誤差的理論聯系（參見附錄 A）以及作者在表 2 中報告的實證評估一致。圖 1. 與我們提出的積分神經網絡相比，無需微調的不同通道選擇方法的可視化。a) Cifar10 上的 ResNet-18。b) Cifar10 上的 NIN 架構。c) ImageNet 上的 ResNet-18。d) Div2k 驗證集上的 4x EDSR。通過壓縮，我們表示刪除參數的百分比。表2.從預訓練DNN轉換過程中有和無排列步長INN積分劃分的調優，所有模型都被壓縮到40%。

6.3 Pipeline C. 離散神經網絡無微調的結構化剪枝

獲得緊湊神經網絡的一種直接方法是以結構化方式刪除訓練網絡的一些參數。通常，每層神經元或過濾器的重要性是根據取決于網絡權重 W 和數據 X 的各種標準 ρ(W, X) 進行評估的，例如權重的 ?1-范數或對損失。在本文的研究中，結構剪枝應用于卷積層。要修剪的神經元是根據其內核的 ?1-范數或在整個數據集上估計的特征圖的各種統計數據來選擇的。最后，所有 3 個流程的結果如圖 1 所示。從這些結果中我們可以看到，INN 顯著優于其他具有無需微調的剪枝能力的替代方法。此外，我們觀察到非均勻可訓練分區優于具有均勻采樣的預訓練 INN，而均勻采樣提供了更快且無數據的重新離散化分區。這里也推薦「3D視覺工坊」新課程《面向三維視覺算法的C++重要模塊精講：從零基礎入門到進階》。

用于改進連續表示的可訓練劃分

三次卷積插值通常應用于圖像或體積等離散數據。然而，均勻采樣的分區會限制重建質量。因此，可訓練分區提供了額外的靈活性來豐富信號重建，并可能導致更高質量的表示。我們通過執行圖像重建來評估具有固定和可分離可訓練分區的插值內核的表示能力（圖8）。此外，還使用由一組獨立的 2D 坐標參數化的不可分離的可訓練分區來測試重建。由于分區參數化引入了額外的參數，因此我們通過調整插值節點的數量和分區大小來均衡參數總數。

7 總結

在本文中，作者提出了一種新穎的神經網絡積分表示，它允許我們通過積分核的簡單重新離散化在推理時生成任意形狀的傳統神經網絡。實驗結果表明，所提出的連續 INN 實現了與離散 DNN 對應物相同的性能，同時在結構化剪枝下保持穩定，無需使用任何微調。在這個新方向上，以下問題值得進一步研究：? INN 為研究神經網絡的能力開辟了新的可能性。奈奎斯特定理可用于選擇采樣點的數量。? 自適應積分求積。在這項工作中，本文僅研究了訓練 INN 的統一分區。研究無數據的非均勻分區估計也可能對 INN 產生重大影響。? 從頭開始訓練INN 需要改進分類網絡。當前精度下降可能是由于缺少批量歸一化層造成的。需要平滑的標準化模擬。

8 一些思考8.1 INN和DNN的比較

INN 可以被視為連續的，或者換句話說，DNN 的模擬擴展。盡管 INN 具有相同數量的參數，但其性能與 DNN 相當。然而，使用不同的離散化進行訓練會鼓勵沿連續軸的平滑表示，從而為權重添加更多結構和正則化，這種精細的結構對于解決許多問題至關重要，例如神經網絡的有效修剪。此外，任何預先訓練的 DNN 都可以轉換為 INN，而不會降低質量，這是通過通道排列算法實現的，該算法利用了著名的組合旅行商問題的解決方案。這意味著我們可以將 DNN 轉換為 INN，反之亦然。它開啟了使用現有 INN 推理框架以及使用所有現有預訓練 DNN 來獲得預訓練 INN 的可能性。

8.2 INN對人工智能發展的影響

INN 為進一步研究和更深入地理解模型容量等基本 DNN 問題提供了巨大的可能性。展望未來，作者團隊計劃利用差異分析來探索適合特定任務的最小 DNN 配置。此外，作者團隊打算研究 INN 在其他結構（例如生成對抗網絡（GAN））中的應用，并仔細研究 INN 如何處理對抗攻擊。初步分析表明，INN 可能在 GAN 訓練期間提供更高的穩定性，并表現出更強的抵御對抗性攻擊的能力。一個有趣的探索領域是識別能夠完全以模擬方式計算 INN 的物理（模擬）系統，從而促進光速神經網絡推理。作者團隊還計劃以開源方式發布 TorchIntegral 框架，這有助于以與 DNN 相同的方式構建 INN，該框架還支持使用 PyTorch 優化操作來計算任何積分。作者團隊打算提供一個 INN 的“模型動物園”，為開源社區的進一步貢獻做好準備，堅信 INN 技術及其所促進的創新將為邊緣計算帶來高度優化的網絡。

9 參考

https://medium.com/@TheStage_ai/thestage-ais-integral-neural-networks-paper-is-selected-as-an-award-candidate-at-cvpr-2023-773d459b7cfc

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

CVPR 2023 ，BP網絡剪枝了就不好使？（2）

相關推薦

技術專區