博客專欄

        EEPW首頁 > 博客 > 微軟亞洲研究院持續迭代BEiT,為通用基礎模型的大一統發展奠定基礎

        微軟亞洲研究院持續迭代BEiT,為通用基礎模型的大一統發展奠定基礎

        發布人:MSRAsia 時間:2022-11-21 來源:工程師 發布文章
        編者按:近期,微軟亞洲研究院聯合微軟圖靈團隊推出了 BEiT-3 預訓練模型,并在廣泛的視覺及視覺-語言任務上,實現了 SOTA 的遷移性能。BEiT-3 創新的設計和出色的表現為多模態研究開創了新的范式,更預示著人工智能大一統漸露曙光。BEiT-3 的構建思路是什么?大規模預訓練又將通向怎樣的未來?在深科技近日的采訪中,微軟亞洲研究院首席研究員韋福如詳細介紹了生成式自監督視覺預訓練模型 BEiT 和通用多模態基礎模型 BEiT-3 背后的技術,并探討了大模型開發與訓練中需要探討和深思的問題,以及該領域的未來發展方向。


        韋福如,本科、碩士和博士畢業于武漢大學計算機學院。博士期間,他在香港理工大學計算機系擔任訪問學者,自此開始從事自然語言處理(Natural Language Processing,NLP)領域的研究工作。


        幾年間,韋福如在 NLP 領域取得了多次突破,并在大規模預訓練模型、自然語言處理,多模態人工智能等領域持續創新,曾入選2017年《麻省理工科技評論》“35歲以下科技創新35人”中國區榜單。


        圖片

        微軟亞洲研究院首席研究員韋福如


        目前,韋福如已在微軟亞洲研究院工作12年,現任自然語言計算組首席研究員。他以 NLP 為主攻領域,這是人工智能的核心課題之一,是一門研究機器如何理解和生成自然語言的學科。該領域包括語言分析、信息抽取、信息檢索、文本挖掘、機器閱讀理解、智能問答、機器翻譯、自動文摘,文本生成以及綜合場景應用等研究課題。


        近年來,隨著自然語言處理的研究和技術廣泛遷移到人工智能的其他領域,韋福如和團隊還專注于跨任務、跨語言和跨模態基礎模型、語音處理、文檔智能和多模態人工智能等領域的研究。


        從技術層面來看,最近幾年 NLP 領域取得了非常出色的進展。大規模預訓練模型正在引領人工智能領域進行一場前所未有的范式遷移:在海量的未標注數據上通過自監督預訓練得到一個預訓練模型(又稱為基礎模型),再通過微調或少樣本/零樣本學習使用少量標注,甚至不需要標注數據,即可把基礎模型廣泛應用到下游任務模型上。新的范式取得了優異的效果,并展現出了強大的泛化和通用能力。


        “這幾年有三個重要的關鍵詞。第一個是大規模預訓練模型,或稱為基礎模型,即在通過自監督學習完成預訓練的同時,也實現了模型訓練的范式遷移。第二個是多語言,也就是用一個模型可以支持多種語言的下游任務。第三個是多模態,即不同模態(例如文本、圖像、語音等)的建模和學習逐漸趨于融合和統一。”韋福如表示。


        圖片

        生成式自監督視覺預訓練模型BEiT和通用多模態基礎模型BEiT-3


        計算機視覺(Computer Vision, CV)領域通常使用的是有監督預訓練,也就是利用有標注的數據進行訓練。但隨著視覺模型的不斷擴大,標注數據難以滿足模型需求,當模型達到一定規模時,即使模型再擴大,也無法得到更好的結果,這就是所謂的數據饑餓(data hungry)。因此,科研人員開始使用無標注數據進行自監督學習,以此預訓練大模型參數。


        以往在 CV 領域,無標注數據的自監督學習常采用對比學習。但對比學習存在一個問題——對圖像干擾操作過于依賴。當噪聲太簡單時,模型學習不到有用的知識;而對圖像改變過大,甚至面目全非時,模型無法進行有效學習。所以對比學習很難把握這之間的平衡,且需要大批量訓練,對顯存和工程實現要求很高。


        在此背景下,韋福如團隊于2021年推出了生成式自監督的視覺預訓練模型 BEiT,借助掩碼圖像建模(Masked Image Modeling,MIM)方法完成預訓練任務。


        國際表征學習(International Conference on Learning Representations,ICLR)大會評審委員會認為,BEiT 為視覺大模型預訓練的研究開創了一個全新的方向,首次成功將掩碼預訓練應用在了 CV 領域非常具有創新性。實驗結果表明,與之前的預訓練方法相比,BEiT 可實現更為優越的效果。


        基于 BEiT,2022年韋福如和團隊進一步豐富了自監督學習的語義信息,發布了 BEiT-2,并隨后將其升級為 BEiT-3。


        2022年8月31日,相關論文以《把圖像視為外語:適用于所有視覺和視覺-語言任務的BEiT預訓練方法》(Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks)為題發布在預印本平臺 arXiv [1]。


        圖片

        BEiT-3 論文


        隨著大模型的發展,語言、視覺等多模態領域的預訓練模型已呈現出“大一統”趨勢。模型在大規模、海量數據上預訓練之后,能順利遷移至各種下游任務中。因此,預訓練一個能夠處理多種模態的通用基礎模型,也成為目前人工智能研究的一個關鍵課題。


        BEiT-3 正是這樣一種通用的多模態基礎模型,在廣泛的視覺和視覺-語言任務上,都實現了最好的遷移性能。


        圖片

        BEiT-3 預訓練概述


        在 BEiT-3 中,研究人員從骨干網絡、預訓練方法和模型規模化三個方面出發,推動了視覺-語言預訓練任務的融合。


        首先,研究人員使用 Multiway Transformer 作為骨干模型來編碼不同的模態。每一個 Multiway Transformer 模塊都由一個共享的自注意力模塊和一組用于不同模態的前饋網絡池(即模態專家)組成,從而可以同時編碼多種模態。


        此外,通過模塊化的設計,統一架構可以用于不同的視覺及視覺-語言下游任務。其中,Multiway Transformer 每一層都包括一個視覺專家和一個語言專家。


        最上面的三層有專門為融合編碼器設計的視覺-語言專家。共享的自注意力模塊可以對不同模態之間的對齊(即尋找對應關系)進行學習,并能深度融合多模態(如視覺-語言)信息。


        圖片

        可以遷移到各種視覺和視覺-語言下游任務的 BEiT-3


        統一的模型架構使 BEiT-3 能遷移到各種視覺和視覺-語言下游任務中。它不僅可以應用于圖像分類、目標檢測、實例分割等視覺任務的骨干網絡,還可以在模型微調后成為高效的圖像-文本檢索的雙編碼器,以及多模態理解和生成任務的融合編碼器等。


        其次,在預訓練 BEiT-3 的過程中,研究人員采用單模態和多模態數據的統一掩碼數據建模(Masked Data Modeling)方法。這種方法能夠隨機屏蔽一定比例的文本或像素塊,并訓練模型去恢復被屏蔽的部分。統一的掩碼-預測任務,不僅可以學習各模態的特征,還能學習它們之間的對齊。


        其他視覺-語言模型一般采用圖像-文本對比、圖像-文本匹配等多種預訓練任務,而 BEiT-3 只使用了一種預訓練任務,這不僅有利于擴大模型規模,還有助于實現 GPU 內存等多方成本的降低。


        最后,該團隊從模型規模和數據規模兩方面出發,將 BEiT-3 進行規模化,從而提高基礎模型的泛化能力。


        據悉,BEiT-3 由1408個隱藏神經元、6144個中間層神經元、16組注意力模塊的40層 Multiway Transformer 骨干網絡組成,模型共包含大約19億個參數,其中視覺專家參數6.92億,語言專家參數6.92億,視覺-語言專家參數0.52億,共享自注意力模塊參數為3.17億個。


        據介紹,微軟亞洲研究院在單模態和多模態數據上對 BEiT-3 進行了100萬次迭代的預訓練,每個批量的訓練數據包含6144個樣本,其中有2048張圖像、2048個文本和2048個圖像-文本對。相比使用對比學習方法訓練的模型來說, BEiT-3 的批量規模要小得多。值得一提的是,這里面所有數據都是開源的。


        圖片

        BEiT-3 模型參數分布及預訓練數據


        同時,在包含視覺問答、視覺推理、圖像描述生成等在內的視覺-語言任務,以及包含目標檢測與實例分割、語義分割、圖像分類等在內的一共12個視覺-語言下游任務上,該團隊評估了 BEiT-3 的泛化能力。結果表明,BEiT-3 在這些任務上都取得了 SOTA 的遷移性能。


        圖片

        與其他特定模型或基礎模型相比,BEiT-3 在廣泛任務中實現了最佳性能


        圖片

        “通用走向未來”:大規模預訓練模型將朝“大一統”方向發展


        目前,在開發和訓練大模型的過程中,仍然存在許多需要探討和深思的問題。


        例如,很多企業都會將數據收集類的工作外包處理,這個過程中不僅存在安全隱患,還會造成數據不均衡的問題。對此,韋福如表示,數據是模型的重要組成部分。沒有好的數據,就不可能有好的模型。數據本身就是大模型研究的一部分,因此這部分的工作需要更加重視。


        從某種程度上看,對數據部分的研究更需要匯集聰明才智。如何收集、整理以及使用數據,也是最值得投入和研究的課題之一。


        又比如,研發大模型時不僅會消耗大量成本,甚至也會對氣候造成一定影響。談及這個問題,韋福如表示大模型的能效(efficiency)很重要,這也是接下來需要研究的重要部分之一。但另一方面,因為通用大模型的出現,相關領域的特定任務和模型將變得更加簡單,這也有利于降低重復建設的成本。


        在韋福如看來,未來大規模預訓練模型向“大一統”方向發展,已經成為必然。這個“大一統”主要可從兩個層面理解:


        第一,從技術層面看,如何用相同的技術構建不同領域的基礎模型?這包括構建通用骨干網絡、生成式自監督學習為主的學習方式,以及持續擴大(scaling up)模型規模。


        第二,從模型和應用層面看,如何構建一個能夠處理不同語言和模態任務的基礎模型?隨著技術的統一,未來將會出現能夠應用于各種領域的通用基礎大模型。


        韋福如認為:“只有模型標準化,才可能實現規模化,進而為大范圍產業化提供基礎和可能。‘大一統’中很重要的一點是,技術會變得越來越通用,只有通用才有可能更接近本質,也更利于不同領域的深度合作和相互促進。”


        而對于 BEiT-3 來說,其核心思想就是把圖像作為一種外語進行建模和學習,從而實現以統一的方式完成圖像、文本和圖像-文本的掩碼“語言”建模,這也在自然語言處理領域被證實為最有效的擴大模型規模的技術方向和方案,這也將成為規模化基礎模型一個頗有前景的方向。


        未來,韋福如和團隊將繼續開展多模態預訓練方面的工作,并將在其中加入包括音頻、多語言在內的更多模態,在促進跨語言和跨模態轉換的同時,推動跨任務、跨語言和跨模態的大規模預訓練融合。


        支持:王貝貝


        參考資料:


        1.W. Wang, H. Bao, L. Dong, J. Bjorck.et al. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. arXiv (2022).https://doi.org/10.48550/arXiv.2208.10442

        H. Bao, L. Dong, S. Piao. F. Wei, BEiT:BERT Pre-Training of Image Transformers. arXiv (2021).https://doi.org/10.48550/arXiv.2106.08254

        Z. Peng, L. Dong, H. Bao, Q. Ye, F. Wei, BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers. arXiv (2022)https://doi.org/10.48550/arXiv.2208.06366



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。

        電子管相關文章:電子管原理


        模擬信號相關文章:什么是模擬信號


        可控硅相關文章:可控硅工作原理


        比較器相關文章:比較器工作原理


        低通濾波器相關文章:低通濾波器原理


        電子負載相關文章:電子負載原理


        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 邓州市| 保康县| 漾濞| 梅河口市| 信丰县| 万全县| 内黄县| 湟中县| 牙克石市| 宿州市| 青神县| 玉溪市| 玛沁县| 黔西县| 宣汉县| 株洲市| 寿阳县| 土默特右旗| 五寨县| 米脂县| 厦门市| 襄垣县| 广河县| 东山县| 新晃| 安仁县| 达尔| 镇平县| 青海省| 邢台市| 桑植县| 房产| 鄂托克前旗| 临潭县| 方山县| 惠州市| 潮州市| 长寿区| 绿春县| 荔浦县| 资中县|