博客專欄

        EEPW首頁 > 博客 > 訓練開銷驟減,10%成本定制專屬類GPT-4多模態大模型(2)

        訓練開銷驟減,10%成本定制專屬類GPT-4多模態大模型(2)

        發布人:機器之心 時間:2023-05-20 來源:工程師 發布文章
        三、實驗結果


        3.1 加速比

        圖片

        表 1:我們的 VPGTrans 的相比于從頭訓練在各個數據集的加速比
        如表 1 所示,我們測試了在不同遷移類型下,VPGTrans 在不同數據集上的加速比。VPGTrans 在某指定數據集 A 上的加速比是通過從頭訓練達到 A 上最佳效果 a 的輪數除以 VPGTrans 在 A 上效果超過 a 的最小訓練輪數得到。比如,從頭在 OPT-2.7B 上訓練 VPG,在 COCO caption 達到最佳效果需要 10 個 epoch,但從 OPT-125M 遷移 VPG 到 OPT-2.7B,僅需 1 個 epoch 就能達到該最佳效果。則加速比為 10/1=10 倍。我們可以看到,無論是在 TaS 還是在 TaT 場景下,我們的 VPGTrans 都可以實現穩定的加速。
        3.2 有趣的發現
        我們選取了一個比較有趣的發現進行了說明,其他更多更有意思的發現請參照我們的論文。
        TaS 場景下,越小的語言模型上訓練的 VPG,遷移起來效率越高,最后模型效果越好。參考表 1,我們可以發現 OPT-1.3B 到 OPT-2.7B 的加速比要遠小于 OPT-125M、OPT-350M 到 OPT-2.7b 的加速比。我們嘗試提供了一個解釋:一般越大的語言模型,由于其文本空間的維度更高,會更容易損害 VPG (VPG 一般都是類似于 CLIP 的預訓練模型) 本身的視覺感知能力。我們通過類似于 linear probing 的方式進行了驗證:

        圖片

        圖 8:僅訓練 linear projector 層的跨 LLM 大小遷移 (模擬 linear probing)
        如圖 8 所示,我們進行了 OPT-125M,350M,1.3B,2.7B 之間的跨 LLM 大小的遷移。在實驗中,為了公平對比不同模型大小下訓練過的 VPG 的視覺感知能力,我們固定住 VPG 的參數僅僅訓練 linear projector 層。我們選取了 COCO Caption 上的 SPICE 指標作為視覺感知能力的衡量手段。不難發現,對于每一個給定的 圖片幾乎都符合 圖片越小,最終 SPICE 越高的一個現象
        3.3 大規模實驗
        前文實驗主要是在小規模場景下驗證猜想。為了證明我們方法的有效性,我們模擬 BLIP-2 的預訓練過程進行了大規模實驗:

        圖片

        表 2:真實場景下的大規模實驗結果
        如表 2 所示,我們的 VPGTrans 在大規模場景下依然有效。通過 OPT-2.7B 到 OPT-6.7B 的遷移,我們僅用 10.8% 的數據和不到 10% 的訓練時長達到了相似或更優的效果。尤其是,我們的方法在 BLIP-2 以 FlanT5XXL 為基座 LLM 下實現了 5% 左右的訓練成本控制。
        四、定制自己的 VL-LLMs
        我們的 VPGTrans 可以快速為任意新的 LLMs 添加視覺感知模塊,從而得到一個全新的高質量 VL-LLM。在本工作,我們額外訓練了一個 VL-LLaMA 和一個 VL-Vicuna。其中 VL-LLaMA 的效果如下:

        圖片

        表3:VL-LLaMA 的效果展示
        同時,我們的 VL-Vicuna 可以進行多模態對話。我們和 MiniGPT-4 進行了簡單的比較:

        圖片


        圖片


        五、總結
        在這項工作中,我們對 VPG 在 LLM 之間的可遷移性問題進行了全面調查。我們首先探討了最大化遷移效率的關鍵因素。基于關鍵觀察,我們提出了一種新穎的兩階段遷移框架,即 VPGTrans。它可以在顯著降低訓練成本的同時,實現相當或更好的性能。通過 VPGTrans,我們實現了從 BLIP-2 OPT-2.7B 到 BLIP-2 OPT-6.7B 的 VPG 遷移。相較于從零開始連接 VPG 到 OPT 6.7B,VPGTrans 僅需 10.7% 訓練數據和不到 10% 的訓練時長。此外,我們展示并討論了一系列有趣發現及其背后的可能原因。最后,我們通過訓練 VL-LLaMA 和 LL-Vicuna,展示了我們的 VPGTrans 在定制新的 VL-LLM 方面的實際價值。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 济宁市| 建阳市| 府谷县| 凌源市| 稻城县| 固安县| 鄱阳县| 新和县| 区。| 胶南市| 阳朔县| 广宁县| 谷城县| 南溪县| 揭阳市| 梁河县| 湘阴县| 临朐县| 运城市| 嘉义县| 普兰县| 卫辉市| 都安| 晋州市| 金阳县| 巢湖市| 天水市| 都匀市| 仪征市| 雷波县| 三河市| 平和县| 海口市| 东乌| 平阳县| 惠安县| 芦山县| 周至县| 吉隆县| 云龙县| 高州市|