綜合實力已超ChatGPT!文心大模型3.5勇奪國際權威測評第一名,7項指標均為滿分
內容創作、圖片生成、智能編程、對話問答……如今,AI 大模型已然具備諸多通用能力。它的誕生,讓人類通過自然語言就能與其進行交互,極大程度地促進了社會生產力的釋放。
以 AI 驅動的大模型技術突破,也被看作是人工智能發展的一個重要里程碑。目前,市場上已經出現各式各樣的大模型,與之同時產生的,是各類大模型評測標準和評估報告。《AI 大模型技術能力評估報告,2023》,就是 IDC 面向 AI 領域推出的一項權威報告。據悉,本次評估涉及 9 家大模型技術廠商。其中,由百度開發的文心大模型 3.5 取得 12 項指標的 7 項滿分,獲得綜合評分第一、算法模型唯一滿分和行業覆蓋唯一滿分的佳績。


IT 市場研究和咨詢公司 IDC 在分析咨詢領域深耕了五六十年,對信息技術和高科技行業發展趨勢的跟蹤覆蓋全球 110 多個國家。目前,其所發布的數據和指標,已經成為諸多行業和企業的重要參考依據。
2023 年 3 月,IDC 正式啟動《AI 大模型技術能力評估報告》項目。據了解,該報告與其他機構發布的同類報告存在幾點不同。首先,其是國內最早啟動的大模型評估報告。其次,研究周期持續 4 個月,在對不同類型的不同廠商進行全面覆蓋的同時,也保持對大模型能力迭代與演進的持續跟蹤。同時,評估范圍非常全面,涵蓋產品、服務、行業這三大維度和算法模型、通用能力、創新能力等十多項指標。此外,其首次提出的一套行業認可的技術評估標準,對發展大模型過程中的去偽存真也有一定借鑒意義。
如上所述,百度文心大模型 3.5 在 7 項指標中獲得滿分。具體來說,這 7 項指標分別是算法模型、通用能力、創新能力、平臺能力、行業覆蓋、能源和生態合作。

其中,算法模型是衡量產品能力的核心要素,涉及大模型訓練的數據集來源、算法結構、模型的預測和推理等方面,扮演著驅動大模型綜合效果實現的底座角色。百度文心大模型 3.5 獲得該指標下的唯一滿分,足以說明其算法模型的先進性和優越性,以及具備支撐更為全面的行業覆蓋的能力。
行業覆蓋考察的則是大模型的企業級客戶數量,以及落地的具體行業數。由于實現大模型應用落地是大模型發展的“最后一公里”,因此該指標不僅是當下大模型廠商的關注重點,也已經成為衡量大模型產業落地的重要環節。那么,顯而易見,在這方面獲得唯一滿分的百度文心大模型 3.5,有望在不遠的未來實現千行百業落地應用,并助力 AI 普惠化發展。
需要說明的是,文心大模型不是只有一個模型,其包含 30 多個大模型,涵蓋基礎大模型、任務大模型和行業大模型三級體系。

此外,大模型出現以后,傳統上以“芯片-OS-應用”為主要架構的 IT 技術棧也在發生改變。在這方面,百度提出“芯片-框架-模型-應用”四層技術棧,每一層都包括百度自研的多個代表性技術。比如,在芯片層,開發通用人工智能芯片“昆侖芯”,在框架層,開發深度學習平臺飛槳,在模型層,有自研文心大模型,在應用層,則有相應的模型應用生態。這些都是百度 AI 大模型具備的優勢,也是 IDC 重點關注的內容。
那么,百度之所以能夠取得此次的好成績,主要得益于其產品技術能力和行業應用能力。

早在 2018 年,百度就開始布局文心大模型。2023 年 3 月,依托文心大模型的技術積累,發布全新一代知識增強大語言模型文心一言。
如今,以文心大模型 3.5 為基礎模型的新版文心一言,能力較今年 3 月又實現極大提升。據多個公開測評結果,新版文心一言的綜合能力已超過 ChatGPT,并在某些方面具備超出 GPT-4 的表現。
整體來看,文心一言基于預訓練大模型即文心大模型 3.5,持續從海量數據和大規模知識中融合學習,具備知識增強、檢索增強和對話增強的技術特色。
如果將預訓練大模型與人類比,其就像已經閱讀過許多書籍的孩子。為了使其智力水平更加完整全面,百度在建設過程中投入高達 90% 的時間和精力。不過,在這基礎上,還需要對其進行一系列人為指導,讓模型在通過不斷的練習提升效果的同時,也能按照人類希望的方式回答問題。這些工作完成后,一個基礎的大語言模型才得以形成。
為了提高大模型的實用性,使其在事實準確性、時效性等方面更上一層樓,百度還開發了三大增強技術。
知識增強技術是讓大模型類比人類采用知識體系的方式進行學習的技術,通過內化學習和知識外用的方式,幫助模型取得更好的學習效果。檢索增強技術是一種以搜索方式滿足新數據獲取的技術。文心一言采用新一代端到端檢索架構,能夠很好地解決信息時效性問題。對話增強技術是通過上下文理解、記憶機制等技術,進一步提升大模型生成回答的連貫性和邏輯性。
在基本技術框架之外,文心大模型 3.5 也在以下五個方面實現新的技術突破。
第一,基于飛槳最先進的技術,如自適應混合并行訓練技術、混合精度計算等,加快模型迭代,實現基礎模型的升級。
第二,在精調技術上實現創新,通過多類型多階段有監督精調、多層次多粒度獎勵模型、多損失函數混合優化和雙飛輪結合的模型優化,進一步提升模型的效果和場景適配能力。
第三,理解并提取用戶提示和需求輸入中涵蓋的知識點,并將其變成指導大模型生成工作后的指引,進而提升大模型對世界知識的掌握和運用能力。
第四,綜合多種方法,構建大量邏輯知識,提高模型的邏輯推理能力。
第五,在大模型上建立插件機制,進一步拓展大模型能力。據介紹,目前百度搜索和 ChatFile 這兩個插件已經應用于文心一言。
上述技術的協同發展,讓文心大模型 3.5 的效果實現很好的提升。據悉,目前文心大模型 3.5 的訓練速度和推理速度,相較之前分別提升 2 倍和 30 倍,整體模型效果提升 50%,成本也實現大幅下降。
下面就讓我們通過一些測評,來實際地體驗下文心大模型 3.5 的能力。
對于新聞從業者來說,撰寫新聞稿的能力是必須具備的。但在新聞點眾多、重要新聞事件頻發的情況下,新聞工作者的時間和精力有限,常常無法完成所有新聞報道的撰寫。如果能有一個可以生成新聞稿的 AI 工具,就能在一定程度上助力新聞工作者解決上述問題。下面,筆者使用文心一言新聞稿生成的功能,測試一下具體的效果。
我們都知道,7 月 20 日 21 時 40 分,神舟十六號乘組圓滿完成了出艙活動。那就讓文心一言以該事件為主題,生成一篇新聞稿。

可以看出,由文心一言生成的新聞稿,行文規范、語句流暢、邏輯性強,已經能夠基本滿足工作需求。
試想一下,如果新聞工作者有文心一言的加持,就能極大程度地減輕工作負擔,提升工作效率。
如上所說,ChatFile 插件已經應用于文心一言上,我們可以利用該插件來測試一下文心一言在長文檔摘要、問答、潤色等功能上的效果。
2022 年 8 月,中國互聯網絡信息中心發布了第 50 次《中國互聯網絡發展狀況統計報告》。該報告都有哪些核心內容呢?讓文心一言來幫我們做下總結吧。

除了全局性總結以外,我們還可以就報告的局部內容,讓文心一言幫我們做個總結。比如,當我們向文心一言輸入:5G+ 工業互聯網應用主要在哪幾個行業落地?

通過上述測評我們可以看出,基于 ChatFile 插件,以后用戶可以方便快捷地掌握長文檔的主要內容,并進行有針對性的學習。

現如今,AI 大模型已經處在向大規模產業落地邁進的階段。
就文心大模型而言,其以“源于產業實踐、服務于產業實踐”為發展定位,形成支撐大模型產業落地的關鍵路徑,并在能源、醫療、工業、金融等領域開展了廣泛全面的業務場景探索。
具體來說,百度在去年已經與國家電網、深圳燃氣等企業單位聯合發布 11 個行業大模型。這些行業大模型是在通用大模型的基礎上、加入行業自有數據和經驗搭建而成的,可以更加精準地適配各行業的應用需求。比如,百度和深圳燃氣推出的燃氣行業大模型,就能有效地解決風險識別、運營繁雜等難題。
另外,據了解,與同類大模型相比,文心大模型的產業應用規模已位居中國首位,有 15 萬家企業申請接入文心一言系統。
有數據統計,自去年年末 ChatGPT 發布至今,國內各大企業已經先后發布超過 90 個 10 億規模以上的大模型。從中不難看出,我們已然進入大模型時代,生成式 AI 的發展,或將給我們的產業結構,甚至于整個社會都帶來深刻的影響。
百度表示,從大模型產業化來看,目前有三個層面的挑戰亟待解決:首先是模型訓練難度大、成本高;其次是對算力規模和性能要求高;同時對海量數據進行收集、挖掘、建設和篩選,也是十分浩瀚的工程。
其認為,如今大量大模型蓬勃發展的態勢只是一個階段性現象,各企業機構在未來攻克上述挑戰和不斷迭代大模型的過程中,會逐漸找到自己的定位,并走向更為細分的發展方向。也就是說,今后大模型將呈現少量集中的發展趨勢,既不需要大量大模型的存在,也不需要將每個應用都進行大模型開發。可以通過封裝大數據、大算力和大算法,建設自動化、數字化和標準化的生產模式,為千行百業的應用提供高效支撐。對于百度來說,其正在堅持不懈地朝著這條路徑邁進。
來源:DeepTech深科技
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。