博客專欄

EEPW首頁 > 博客 > 開源引擎GTS乾坤鼎：自動生產模型拿下FewCLUE榜單冠軍

開源引擎GTS乾坤鼎：自動生產模型拿下FewCLUE榜單冠軍

發布人：機器之心時間：2022-11-19 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

在自然語言處理（NLP）領域，基于 Transformer 結構的預訓練語言模型展示出了強大的語言理解能力，在各類 NLP 任務上都取得了巨大突破。

然而，在眾多真實的業務場景中，有標注的數據是往往是嚴重稀缺的，而相關數據的獲取和標注需要大量的人力和專家知識的投入。因此，小樣本學習的研究已經成為業界的熱點之一。

針對這一問題，IDEA 研究院認知計算與自然語言研究中心（下面簡稱 IDEA CCNL）研發了模型生產工具 GTS 乾坤鼎引擎以及 GTSfactory 模型自動生產平臺，其基于封神榜開源模型體系，提出了首創的 GTS（Generator-Teacher-Student）訓練體系，通過「用 AI 生產 AI」的方式，以自動化生產的模型在中文語言理解權威評測基準 FewCLUE 榜單上分別取得了第一名及第三名的好成績。

FewCLUE 是中文語言理解權威評測 CLUE 的子榜，旨在探索小樣本學習的最佳實踐，先后吸引了包括百度、騰訊微信、美團、網易、奇點智源和浪潮人工智能研究院等工業界和學術界頂尖機構的參與。GTS 系列產品的這一次登頂，也預示著其模型自動化生產技術已經達到了頂尖的算法專家水平。

其中，GTS 乾坤鼎在 EPRSTMT(電商評論情感二分類)任務中超過了其他算法專家生產的模型，同時也刷新了 BUSTM(句子對相似度判斷)任務的記錄；而 GTSfactory 自動生產出的 1.1 億參數的小模型在總分和單項任務中均接近算法專家的最好水平，這也是 FewCLUE 榜單中 TOP10 里模型參數最小的模型。

IDEA CCNL 目前已經開源 GTS 乾坤鼎（https://github.com/IDEA-CCNL/GTS-Engine），也將逐步開源 GTSfactory，讓更多的人可以參與到 GTS 訓練體系中來，將 IDEA-CCNL 堅持的「用 AI 生產 AI」的理念傳播開來。

GTS 乾坤鼎登頂 fewCLUE，GTSfactory 達到算法專家水平

GTS 系列產品專注于研究在不同模型參數規模下的小樣本 NLU 任務模型自動生產，其中，GTS 乾坤鼎引擎利用 13 億參數規模的 Erlangshen-BERT 進行訓練，而 GTSfactory 模型自動生產平臺則搭建了 Generator(參數量幾十億及以上的生成模型)、Teacher(參數量 10 億以上的大模型)及 Student(參數量 1 億小模型)協同訓練的體系，最終生產出可以落地部署的輕量級小模型。

在「GTS」訓練體系的加持下，GTS 乾坤鼎通過自動化訓練的方式，在沒有模型集成的情況下，憑借單一模型登頂 FewCLUE，真的有點「鼎」。其中，EPRSTMT(電商評論情感二分類) 任務中取得了 90.04 分，超過曾經的第一 90.0 分，并刷新了該項任務的最高記錄；BUSTM(句子相似度判斷)任務中取得了 84.4 分，大幅度刷新了該項任務的最好成績，其他幾項任務也與 SOTA 接近，可以想象一下，如果在離線數據處理場景中使用 GTS 乾坤鼎自動化訓練出的模型，那對于數據處理效率上的提升該有多么「鼎」。

GTS 乾坤鼎引擎致力于提供開箱即用的自然語言任務的處理能力，讓你僅僅調用不到十行代碼，即可低成本地訓練出效果強大的模型。據介紹，GTS-Engine 未來將逐步開源全部的訓練能力。

Github：https://github.com/IDEA-CCNL/GTS-Engine

如果說 GTS 乾坤鼎生產的 13 億參數的大模型代表了小樣本下的性能巔峰，那么 GTSfactory 生產的 1.1 億參數的小模型則可能在開創小樣本下的應用巔峰。在沒有模型集成的情況下，GTSfactory 產出的單一小模型以 1.1 億參數量取得了 FewCLUE 榜單第三名的成績，超越一眾參數量 10 億、幾十億的重量級大模型，這說明在 Few-shot 場景下，GTS 訓練體系產出的小模型可以兼具高性能及快速推理的能力。

傳統的 AI 模型開發模式，一般是「一人負責一個模型」，一個算法工程師負責數據標注、算法嘗試和調優、模型評估整個鏈路的工作，不但耗時耗力，生產的 AI 模型的效果還因算法工程師的水平而異。GTSfactory 平臺的出現打破了這一桎梏，設想一下，當你需要進行實時意圖識別時，你只需要提供幾十條標注數據 + 幾小時的訓練等待時間，便可以在平臺上獲取一個性能相當優異的小參數量 AI 模型，業務的生產力將得到極大的釋放。正如汽車工業中流水線的進步一樣，GTS 打造了 AI 行業的模型自動化生產線，AI 生產工業化時代即將到來。

GTSfactory(gtsfactory.com)當前處于「免費公測」階段，還有什么問題是免費 GPU 算力解決不了的呢？GTSfactory 背后的 GTS 八卦爐引擎，也將逐步開源所有的訓練能力，這樣本地也可以一鍵啟動「煉丹」啦~

如何理解 GTS 訓練體系？GTS 又如何實現「用 AI 生產 AI」？

首創的「GTS 訓練體系」以模型間能力的傳遞為核心，依托于大模型的強大 NLU 能力，相較于傳統基于 NAS 的自動化訓練模式，可以極大地減少算力的消耗同時保持模型的性能。

具體的，GTS 訓練體系在訓練過程中會用到幾十億參數的生成模型 Generator，13 億參數量及以上的 NLU 大模型 Teacher，最終將 Generator 及 Teacher 的大模型能力轉化到 1 億參數的小模型 Student 中。

在大模型能力的轉化過程中，GTS 訓練體系融合了「Collaborative Learning」、「Meta Learning」、「Self-Training」、「Prompt」等多種學習范式，開發者將 GTS 訓練體系管道化、模塊化，實現「N 個算法工程師」共建一個訓練體系的算法開發模式，真正的構筑成了一種物理意義上的訓練系統。因此，GTS 訓練體系，從系統的角度去解讀 G、T、S，又可以變為「General Training as a System」。

GTS 訓練體系下，Generator 扮演了「存儲 + 計算」一體的知識庫這樣的角色，源源不斷地輸出下游任務需要的數據，而 Teacher 則是扮演「數據校驗」的角色，輔助 Generator 對生成數據進行校驗；最終，Student 進一步整合來自 Generator 和 Teacher 的大模型能力。在整個能力傳遞的過程中，本質上是一個 AI 模型將能力傳遞到另一個 AI 模型，因此也類似于 AI 模型間的「教學」，這也即是 GTS 訓練體系「用 AI 生產 AI」理念的由來。

GTS 乾坤鼎引擎技術揭秘

在 13 億參數規模的大模型上進行訓練，關鍵在于如何提升模型在小樣本數據下的泛化能力。GTS-Engine 主要使用了以下幾種關鍵的技術：

1.有監督預訓練

它收集了百萬級別帶有標簽的文本數據，并通過開源的中文概念圖譜進行多標簽層級的擴充，構造了一個涵蓋所有主題的有監督分類數據集，利用這一規模龐大的數據集進行了有監督預訓練，主要用于解決主題分類的任務。IDEA 研究院已經在 huggingface 上開源了模型。

2.新的學習范式

GTS-Engine 使用 UniMC（https://arxiv.org/abs/2210.08590）作為學習范式。UniMC 同樣也是 IDEA-CNNL 提出的統一 NLU 學習范式，發表在了 EMNLP2022 會議上。它不僅在零樣本 NLU 任務上表現優異，在小樣本任務上同樣效果卓越，在自然語言蘊含和句子對相似任務上，它使用這一范式進行微調。

3.檢索增強

GTS-Engine 利用訓練數據集構造了一個索引，通過編碼器獲得的句子向量作為索引的 key，標簽作為索引的 value。通過 kNN 的方式對索引進行檢索，把 kNN 預測的概率和分類器預測的概率進行插值作為最后的分類概率輸出。同時，它也可以利用 TCBert 對句子編碼器和分類器進行同時訓練，進一步提高性能。

4.數據增強

GTS-Engine 使用 Masking、Dropout、Mixup 等方式進行數據增強，其中 Mixup 通過對輸入數據進行簡單的線性變換，構造新的組合樣本和組合標簽，可以增強模型的泛化能力。同時，它也引入了 R-Drop 對同一個句子做兩次 Dropout，并且強制由 Dropout 生成的不同子模型的輸出概率保持一致，使得模型更具有泛化性。

5.對比學習

GTS-Engine 使用 batch 內樣本構造正負例，加入對比損失來訓練模型。更進一步地，它也引入了 kNN 對同一個 batch 內的樣本進行正負例的擴充，讓對比學習能看到更多更豐富的語義，這也進一步提升了效果。

6. 系統化

最后，作者將上述提到的技術，通過訓練流水線的方式有機地結合在一起，并加入 Self Training 驅動各個技術間的訓練和融合，最終產出一個 13 億級別參數的大模型。

IDEA 研究院已將部分訓練細節進行了開源，GTS 乾坤鼎引擎后續將會逐步更新，將全部的模型生產能力全部開源，讓你僅編寫不到十行 Python 即可生產最好的 NLU 模型。

GTSfactory 技術揭秘

GTSfactory 的目標是生產出輕量化、可自由部署、高性能的小模型，從算法角度，可以分成離線算法和在線算法。

1.模型離線預訓練技術：

A.基于 Meta Learning 的線下大規模有監督數據預訓練

B.基于全詞 MLM 的線下特定領域數據的無監督預訓練 Domain Adaptive Pretraining

2.模型在線訓練技術：

A.基于文本檢索系統的任務相關預訓練 Task Adaptive Pretraining

B.基于 3D 信息對齊的多模型協同訓練

C.深度改造的 Prompt Learning

D.Self-Training / 偽標簽等半監督技術的運用

E.RDrop、KNN、多任務學習、自適應模型驗證等眾多 Trick 的整合

小結

GTS 訓練體系瞄準當前 AI 產業界的兩大痛點：1）數據少、2）人力貴，類似于福特 1913 年發明的汽車生產流水線，IDEA CCNL 希望 GTS 訓練體系成為「用 AI 生產 AI」的模型生產線，后續 GTS 訓練體系還會納入更多的 NLP 及多模態任務，如信息抽取、摘要、AIGC 等，為 AI 產業化貢獻力量。GTS 系列產品面向更廣泛的使用者，能夠更快地接入業務軌道，節省硬件、軟件、人力等成本，在激烈的市場競爭中，為千百萬個尚在萌芽階段的 ideas 搶救出更多的成長時間。

「讓機器擁有與人一樣的認知能力」，是一個非常高遠的目標，等到它實現并掀起下一次人工智能浪潮，也許時間已經過去了許久。但正是每一次小小的進步，每一次手舞足蹈著宣布的「idea」，堅定地牽引著那一天的到來。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

開源引擎GTS乾坤鼎：自動生產模型拿下FewCLUE榜單冠軍

相關推薦

技術專區