博客專欄

        EEPW首頁 > 博客 > 開源引擎GTS乾坤鼎:自動生產(chǎn)模型拿下FewCLUE榜單冠軍

        開源引擎GTS乾坤鼎:自動生產(chǎn)模型拿下FewCLUE榜單冠軍

        發(fā)布人:機器之心 時間:2022-11-19 來源:工程師 發(fā)布文章

        在自然語言處理(NLP)領域,基于 Transformer 結(jié)構(gòu)的預訓練語言模型展示出了強大的語言理解能力,在各類 NLP 任務上都取得了巨大突破。


        然而,在眾多真實的業(yè)務場景中,有標注的數(shù)據(jù)是往往是嚴重稀缺的,而相關數(shù)據(jù)的獲取和標注需要大量的人力和專家知識的投入。因此,小樣本學習的研究已經(jīng)成為業(yè)界的熱點之一。


        針對這一問題,IDEA 研究院認知計算與自然語言研究中心(下面簡稱 IDEA CCNL)研發(fā)了模型生產(chǎn)工具 GTS 乾坤鼎引擎以及 GTSfactory 模型自動生產(chǎn)平臺,其基于封神榜開源模型體系,提出了首創(chuàng)的 GTS(Generator-Teacher-Student)訓練體系,通過「用 AI 生產(chǎn) AI」的方式,以自動化生產(chǎn)的模型在中文語言理解權(quán)威評測基準 FewCLUE 榜單上分別取得了第一名及第三名的好成績。


        FewCLUE 是中文語言理解權(quán)威評測 CLUE 的子榜,旨在探索小樣本學習的最佳實踐,先后吸引了包括百度、騰訊微信、美團、網(wǎng)易、奇點智源和浪潮人工智能研究院等工業(yè)界和學術界頂尖機構(gòu)的參與。GTS 系列產(chǎn)品的這一次登頂,也預示著其模型自動化生產(chǎn)技術已經(jīng)達到了頂尖的算法專家水平。


        其中,GTS 乾坤鼎在 EPRSTMT(電商評論情感二分類)任務中超過了其他算法專家生產(chǎn)的模型,同時也刷新了 BUSTM(句子對相似度判斷)任務的記錄;而 GTSfactory 自動生產(chǎn)出的 1.1 億參數(shù)的小模型在總分和單項任務中均接近算法專家的最好水平,這也是 FewCLUE 榜單中 TOP10 里模型參數(shù)最小的模型。


        IDEA CCNL 目前已經(jīng)開源 GTS 乾坤鼎(https://github.com/IDEA-CCNL/GTS-Engine),也將逐步開源 GTSfactory,讓更多的人可以參與到 GTS 訓練體系中來,將 IDEA-CCNL 堅持的「用 AI 生產(chǎn) AI」的理念傳播開來。

         

        圖片


        GTS 乾坤鼎登頂 fewCLUE,GTSfactory 達到算法專家水平


        GTS 系列產(chǎn)品專注于研究在不同模型參數(shù)規(guī)模下的小樣本 NLU 任務模型自動生產(chǎn),其中,GTS 乾坤鼎引擎利用 13 億參數(shù)規(guī)模的 Erlangshen-BERT 進行訓練,而 GTSfactory 模型自動生產(chǎn)平臺則搭建了 Generator(參數(shù)量幾十億及以上的生成模型)、Teacher(參數(shù)量 10 億以上的大模型)及 Student(參數(shù)量 1 億小模型)協(xié)同訓練的體系,最終生產(chǎn)出可以落地部署的輕量級小模型。


        在「GTS」訓練體系的加持下,GTS 乾坤鼎通過自動化訓練的方式,在沒有模型集成的情況下,憑借單一模型登頂 FewCLUE,真的有點「鼎」。其中,EPRSTMT(電商評論情感二分類) 任務中取得了 90.04 分,超過曾經(jīng)的第一 90.0 分,并刷新了該項任務的最高記錄;BUSTM(句子相似度判斷)任務中取得了 84.4 分,大幅度刷新了該項任務的最好成績,其他幾項任務也與 SOTA 接近,可以想象一下,如果在離線數(shù)據(jù)處理場景中使用 GTS 乾坤鼎自動化訓練出的模型,那對于數(shù)據(jù)處理效率上的提升該有多么「鼎」。


        GTS 乾坤鼎引擎致力于提供開箱即用的自然語言任務的處理能力,讓你僅僅調(diào)用不到十行代碼,即可低成本地訓練出效果強大的模型。據(jù)介紹,GTS-Engine 未來將逐步開源全部的訓練能力。


        Github:https://github.com/IDEA-CCNL/GTS-Engine


        圖片


        如果說 GTS 乾坤鼎生產(chǎn)的 13 億參數(shù)的大模型代表了小樣本下的性能巔峰,那么 GTSfactory 生產(chǎn)的 1.1 億參數(shù)的小模型則可能在開創(chuàng)小樣本下的應用巔峰。在沒有模型集成的情況下,GTSfactory 產(chǎn)出的單一小模型以 1.1 億參數(shù)量取得了 FewCLUE 榜單第三名的成績,超越一眾參數(shù)量 10 億、幾十億的重量級大模型,這說明在 Few-shot 場景下,GTS 訓練體系產(chǎn)出的小模型可以兼具高性能及快速推理的能力。


        傳統(tǒng)的 AI 模型開發(fā)模式,一般是「一人負責一個模型」,一個算法工程師負責數(shù)據(jù)標注、算法嘗試和調(diào)優(yōu)、模型評估整個鏈路的工作,不但耗時耗力,生產(chǎn)的 AI 模型的效果還因算法工程師的水平而異。GTSfactory 平臺的出現(xiàn)打破了這一桎梏,設想一下,當你需要進行實時意圖識別時,你只需要提供幾十條標注數(shù)據(jù) + 幾小時的訓練等待時間,便可以在平臺上獲取一個性能相當優(yōu)異的小參數(shù)量 AI 模型,業(yè)務的生產(chǎn)力將得到極大的釋放。正如汽車工業(yè)中流水線的進步一樣,GTS 打造了 AI 行業(yè)的模型自動化生產(chǎn)線,AI 生產(chǎn)工業(yè)化時代即將到來。

         

        圖片


        GTSfactory(gtsfactory.com)當前處于「免費公測」階段,還有什么問題是免費 GPU 算力解決不了的呢?GTSfactory 背后的 GTS 八卦爐引擎,也將逐步開源所有的訓練能力,這樣本地也可以一鍵啟動「煉丹」啦~

         

        圖片


        如何理解 GTS 訓練體系?GTS 又如何實現(xiàn)「用 AI 生產(chǎn) AI」?


        首創(chuàng)的「GTS 訓練體系」以模型間能力的傳遞為核心,依托于大模型的強大 NLU 能力,相較于傳統(tǒng)基于 NAS 的自動化訓練模式,可以極大地減少算力的消耗同時保持模型的性能。


        具體的,GTS 訓練體系在訓練過程中會用到幾十億參數(shù)的生成模型 Generator,13 億參數(shù)量及以上的 NLU 大模型 Teacher,最終將 Generator 及 Teacher 的大模型能力轉(zhuǎn)化到 1 億參數(shù)的小模型 Student 中。


        在大模型能力的轉(zhuǎn)化過程中,GTS 訓練體系融合了「Collaborative Learning」、「Meta Learning」、「Self-Training」、「Prompt」等多種學習范式,開發(fā)者將 GTS 訓練體系管道化、模塊化,實現(xiàn)「N 個算法工程師」共建一個訓練體系的算法開發(fā)模式,真正的構(gòu)筑成了一種物理意義上的訓練系統(tǒng)。因此,GTS 訓練體系,從系統(tǒng)的角度去解讀 G、T、S,又可以變?yōu)椤窯eneral Training as a System」。

         

        圖片


        GTS 訓練體系下,Generator 扮演了「存儲 + 計算」一體的知識庫這樣的角色,源源不斷地輸出下游任務需要的數(shù)據(jù),而 Teacher 則是扮演「數(shù)據(jù)校驗」的角色,輔助 Generator 對生成數(shù)據(jù)進行校驗;最終,Student 進一步整合來自 Generator 和 Teacher 的大模型能力。在整個能力傳遞的過程中,本質(zhì)上是一個 AI 模型將能力傳遞到另一個 AI 模型,因此也類似于 AI 模型間的「教學」,這也即是 GTS 訓練體系「用 AI 生產(chǎn) AI」理念的由來。


        GTS 乾坤鼎引擎技術揭秘


        在 13 億參數(shù)規(guī)模的大模型上進行訓練,關鍵在于如何提升模型在小樣本數(shù)據(jù)下的泛化能力。GTS-Engine 主要使用了以下幾種關鍵的技術:


        1.有監(jiān)督預訓練


        它收集了百萬級別帶有標簽的文本數(shù)據(jù),并通過開源的中文概念圖譜進行多標簽層級的擴充,構(gòu)造了一個涵蓋所有主題的有監(jiān)督分類數(shù)據(jù)集,利用這一規(guī)模龐大的數(shù)據(jù)集進行了有監(jiān)督預訓練,主要用于解決主題分類的任務。IDEA 研究院已經(jīng)在 huggingface 上開源了模型。


        圖片

        2.新的學習范式


        GTS-Engine 使用 UniMC(https://arxiv.org/abs/2210.08590)作為學習范式。UniMC 同樣也是 IDEA-CNNL 提出的統(tǒng)一 NLU 學習范式,發(fā)表在了 EMNLP2022 會議上。它不僅在零樣本 NLU 任務上表現(xiàn)優(yōu)異,在小樣本任務上同樣效果卓越,在自然語言蘊含和句子對相似任務上,它使用這一范式進行微調(diào)。

         

        圖片


        3.檢索增強


        GTS-Engine 利用訓練數(shù)據(jù)集構(gòu)造了一個索引,通過編碼器獲得的句子向量作為索引的 key,標簽作為索引的 value。通過 kNN 的方式對索引進行檢索,把 kNN 預測的概率和分類器預測的概率進行插值作為最后的分類概率輸出。同時,它也可以利用 TCBert 對句子編碼器和分類器進行同時訓練,進一步提高性能。


        4.數(shù)據(jù)增強


        GTS-Engine 使用 Masking、Dropout、Mixup 等方式進行數(shù)據(jù)增強,其中 Mixup 通過對輸入數(shù)據(jù)進行簡單的線性變換,構(gòu)造新的組合樣本和組合標簽,可以增強模型的泛化能力。同時,它也引入了 R-Drop 對同一個句子做兩次 Dropout,并且強制由 Dropout 生成的不同子模型的輸出概率保持一致,使得模型更具有泛化性。


        5.對比學習


        GTS-Engine 使用 batch 內(nèi)樣本構(gòu)造正負例,加入對比損失來訓練模型。更進一步地,它也引入了 kNN 對同一個 batch 內(nèi)的樣本進行正負例的擴充,讓對比學習能看到更多更豐富的語義,這也進一步提升了效果。


        6. 系統(tǒng)化


        最后,作者將上述提到的技術,通過訓練流水線的方式有機地結(jié)合在一起,并加入 Self Training 驅(qū)動各個技術間的訓練和融合,最終產(chǎn)出一個 13 億級別參數(shù)的大模型。


        IDEA 研究院已將部分訓練細節(jié)進行了開源,GTS 乾坤鼎引擎后續(xù)將會逐步更新,將全部的模型生產(chǎn)能力全部開源,讓你僅編寫不到十行 Python 即可生產(chǎn)最好的 NLU 模型。


        GTSfactory 技術揭秘


        GTSfactory 的目標是生產(chǎn)出輕量化、可自由部署、高性能的小模型,從算法角度,可以分成離線算法和在線算法。


        1.模型離線預訓練技術:


        A.基于 Meta Learning 的線下大規(guī)模有監(jiān)督數(shù)據(jù)預訓練

        B.基于全詞 MLM 的線下特定領域數(shù)據(jù)的無監(jiān)督預訓練 Domain Adaptive Pretraining


        2.模型在線訓練技術:


        A.基于文本檢索系統(tǒng)的任務相關預訓練 Task Adaptive Pretraining

        B.基于 3D 信息對齊的多模型協(xié)同訓練

        C.深度改造的 Prompt Learning

        D.Self-Training / 偽標簽等半監(jiān)督技術的運用

        E.RDrop、KNN、多任務學習、自適應模型驗證等眾多 Trick 的整合


        小結(jié)


        GTS 訓練體系瞄準當前 AI 產(chǎn)業(yè)界的兩大痛點:1)數(shù)據(jù)少、2)人力貴,類似于福特 1913 年發(fā)明的汽車生產(chǎn)流水線,IDEA CCNL 希望 GTS 訓練體系成為「用 AI 生產(chǎn) AI」的模型生產(chǎn)線,后續(xù) GTS 訓練體系還會納入更多的 NLP 及多模態(tài)任務,如信息抽取、摘要、AIGC 等,為 AI 產(chǎn)業(yè)化貢獻力量。GTS 系列產(chǎn)品面向更廣泛的使用者,能夠更快地接入業(yè)務軌道,節(jié)省硬件、軟件、人力等成本,在激烈的市場競爭中,為千百萬個尚在萌芽階段的 ideas 搶救出更多的成長時間。


        「讓機器擁有與人一樣的認知能力」,是一個非常高遠的目標,等到它實現(xiàn)并掀起下一次人工智能浪潮,也許時間已經(jīng)過去了許久。但正是每一次小小的進步,每一次手舞足蹈著宣布的「idea」,堅定地牽引著那一天的到來。



        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 南岸区| 和平县| 海南省| 东台市| 宝鸡市| 瓦房店市| 克拉玛依市| 浦江县| 民乐县| 穆棱市| 庐江县| 南通市| 阿城市| 陕西省| 惠州市| 镶黄旗| 正安县| 禄劝| 太仓市| 项城市| 苏尼特左旗| 禹州市| 鸡西市| 台前县| 子长县| 历史| 左权县| 休宁县| 延津县| 施甸县| 出国| 尖扎县| 哈密市| 水城县| 巫山县| 平和县| 上饶县| 罗源县| 磴口县| 潮州市| 阳谷县|