博客專欄

        EEPW首頁 > 博客 > 百模大戰,誰是大模型的裁判員?

        百模大戰,誰是大模型的裁判員?

        發布人:AI科技大本營 時間:2023-08-03 來源:工程師 發布文章

        定義了樹-鄰接語法(TAG)的阿拉文德·喬西(Aravind Joshi)教授,曾提出過“如果沒有基準來評估模型,就像不造望遠鏡的天文學家想看星星。”

        截至目前,國內外已有數百種大模型出世,但無論何種大模型,在亮相階段,無一例外地都在強調自身的參數量,以及在各個評測基準上的評分。

        比如,前不久Meta剛宣布開源并支持商用的Llama2,就明確使用MMLU、TriviaQA、Natural Questions、GSM8K、HumanEval、BoolQ、HellaSwag、OpenBookQA、QuAC、Winogrande等多類數據集進行評測。OpenAI則在GPT-4的報告GPT-4 Technical Report中,詳細展示了在各類型考試中的成績,以及在MMLU、HellaSwag、ARC、WinoGrande、HumanEval、DROP等學術基準中的表現。

        圖片GPT-4 各類基準測試對比(來源:GPT-4 Technical Report

        因為各個模型的基座、技術路徑都不盡相同,所以參數量和評測基準的評分這兩類指標相對直觀,這也使得模型評測基準已經成為了業內衡量模型各方面性能的工具。


        圖片

        大模型評測基準演進之路

        在規范化的模型評測基準出現以前,模型多數使用SQuAD、Natural Questions這類問答數據集來檢驗模型效果,之后衍生出了多任務、系列任務的評測基準,來進行更復雜、全面的評測。

        自GLUE作為最早明確、規范的大語言模型評測基準發布以來,在大語言模型評測基準的議題上,主要分為幾條評測路徑:

        一是以GLUE為代表,通過評估模型在自然語言推斷、文本蘊含、情感分析、語義相似等NLU(自然語言理解)靜態任務上的表現。

        二是以MMLU、AGIEval為代表,通過收集真實世界中的書籍、考試等資料,形成選擇題、問答題等任務。例如MMLU向大模型提出多選問答任務,涵蓋57個領域知識,包括STEM、人文社科等學科,目的是考察大模型在多樣性、高級知識任務上的推理能力的表現。

        三是以HELM為代表,這類基準著重場景劃分,評測各種場景下的模型表現。例如HELM提出了16個場景,并結合7個指標進行細粒度測量,進一步加強了大語言模型的透明度。除了評測基準,近年還涌現了多個垂直知識領域的評測基準。

        除此以外,還有進一步細分的文本任務、多語言評測基準、安全評測基準等評測路徑。也有為了直觀地展現模型效果,讓人類參與評測,出現了Chatbot Arena這類基于Elo評分系統的工具,在國內也有SuperClue瑯琊榜提供類似服務。

        近期由吉林大學、微軟研究院、中國科學院自動化所等機構發布的論文 A Survey on Evaluation of Large Language Modelshttps://arxiv.org/abs/2307.03109中,羅列了全球主要的大模型評測基準。

        圖片來源:A Survey on Evaluation of Large Language Models

        中文世界同樣需要適應中文語言類型的基準大模型,所以近期在國內也陸續涌現了多個中文大模型評測基準,這些模型基準基本對標傳統模型基準技術路徑,進行了針對中文大模型評測基準的改進和優化。

        不少中文大模型已經經歷了多個版本的迭代,衍生出完整的測評矩陣,有些計劃上線更豐富的產品,形成一站式測評平臺。

        CSDN收錄中文大模型基準產品(部分)

        項目名稱
        團隊
        特點

        C-Eval

        上海交通大學

        清華大學

        愛丁堡大學等

        覆蓋人文,社科,理工,其他專業四個大方向,52 個學科共 13948 道題目的中文知識和推理型測試集

        CMMLU

        MBZUAI

        上海交通大學

        微軟亞洲研究院等

        涵蓋了從基礎學科到高級專業水平的67個學科,每個學科至少有105個問題,11528個問題


        CLUE

        CLUE團隊

        提供多種類型的評測基準模型、數據集、排行榜、Elo評分工具等

        FlagEval

        智源

        20+ 個主客觀評測數據集,涵蓋了公開數據集 HellaSwag、MMLU、C-Eval ,智源自建的主觀評測數據集CCLC


        OpenCompass

        OpenMMlab

        大模型評測一站式平臺,提供 50+ 個數據集約 30 萬題的的模型評測方案

        KoLA

        清華大學團隊

        基于維基百科和近90天的新聞與小說作為數據集,從知識記憶、知識理解、知識應用、知識創建四個維度,設計共119個任務


        PandaLM

        西湖大學

        北京大學等

        PandaLM的自動化打分模型基于三位專業標注員對不同大模型的輸出進行獨立打分,并構建了包含 50 個領域、1000 個樣本的多樣化測試集


        GAOKAO

        OpenLMLab

        收集了2010-2022年全國高考考題,其中包括1781道客觀題和1030道主觀題,評測分為兩部分,自動化評測的客觀題部分和依賴于專家打分的主觀題部分,構成了最終評分


        Xiezhi獬豸

        復旦大學

        肖仰華教授團隊


        由 249587 道多項選擇題組成,涵蓋 516 個不同學科和四個難度級別


        國內大模型梳理與評測基準完整列表(持續更新)

        模型基準的評分能否全面、客觀地展現模型能力,排行榜是否證明了模型之間的優劣?

        CSDN了解到大部分大模型團隊對于評測基準較為重視,有受訪者向CSDN表示評測基準給模型的調整方向提供了參考,團隊可以通過模型在評測基準中的表現,對模型進行優化,同時能夠了解自身與其他模型之間的差距和差異,具有一定的借鑒意義。

        也有尚未進行基準評測的大模型團隊,其中有受訪團隊提到,目前中文大模型評測基準多是MMLU路徑,側重于考驗模型的知識能力,但對于想要衡量模型性能,還存在一定的局限性。同時這類基于考試、學術知識的數據集相對透明,易于獲得,也會影響評分、排行榜排名的客觀性。

        所以,雖然模型評測基準是目前衡量模型性能的有效工具,但它們能否成為中文大模型競賽中公正的裁判員,需要基準本身也需要向全面、客觀、精準方向繼續努力。根據當下火熱的模型創業趨勢,我們可以樂觀地預見無論是中文大模型,還是中文大模型評測基準,都將在未來維持不斷追趕的進步趨勢與創新動力。



        圖片

        百模格局已現,后續如何發力?


        大模型步履不停,但方向是否走對了呢?

        根據CSDN的最新統計,國內已經涌現出的各類通用大模型過百家。群雄逐鹿中,通用大模型繼續堆資源,重點聚焦在參數量和推理能力的提升上,各個模型團隊也在發力探索適合的技術演進路徑。

        圖片

        大模型技術與應用思考導圖(v20230428)

        王詠剛 SeedV實驗室創始人/CEO


        智譜AI研發的ChatGLM、王小川領銜所做的Baichuan前后宣布開源大模型,并免費商用,期待鏈接更多場景挖掘價值,快速搭建生態。行業模型則在盡可能探索商業化場景,百姓AI創始人王建碩在播客節目中表示,他們經過調研后明確了會務服務的測試場景。

        賈揚清曾在播客節目中提及模型的保鮮期(shelf life)概念,他認為從2012年AlexNet發布至今,在每個性能強勁的大模型發布后,只要六個月到一年左右時間,就會出現效果接近的模型。隨著更多優質的通用大模型逐漸開源,模型間的技術壁壘有望進一步消除。

        也有行業專家認為,雖然近期大模型的熱情極為高漲,但大模型及其應用的發展,取決于企業對模型部署成本與實際產生價值的衡量。

        我們常說新技術總是在短期被高估,長期被低估。大模型的熱度從去年延續至今,讓全社會矚目的技術創新也在不斷刷屏。隨著時間和技術的推進,大模型將不再是高深莫測的技術名詞。

        大模型的祛魅過程中,評測基準必將是重要的一環。而建立更全面、客觀、準確的評測體系,形成與大模型研究之間的良性互動,也將是從業者與評測基準團隊繼續探索的方向。



        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 通海县| 横峰县| 富民县| 贵阳市| 江津市| 宜宾市| 安义县| 手机| 廉江市| 沿河| 砀山县| 方城县| 阳春市| 四川省| 大姚县| 大化| 静海县| 河东区| 鹿泉市| 永清县| 镇宁| 日土县| 浪卡子县| 拉孜县| 天全县| 汤阴县| 锡林浩特市| 广汉市| 新津县| 泗洪县| 太白县| 枣庄市| 麦盖提县| 理塘县| 平潭县| 内江市| 承德县| 商河县| 商城县| 巫溪县| 南江县|