復旦邱錫鵬:深度剖析 ChatGPT 類大語言模型的關鍵技術
ChapGPT 自問世以來,便展現出了令世人驚艷的對話能力。僅用兩個月時間,ChatGPT 月活躍用戶就達一億,是史上用戶增速最快的消費應用。對于學術界、工業界、或是其他相關應用來說都是一個非常大的機會和挑戰。
事實上,ChatGPT 的成功并不是偶然結果,其背后多有哪些創新之處,本文整理于「ChatGPT 及大模型專題研討會」上復旦大學邱錫鵬教授帶來的《對話式大型語言模型》的分享,他從大規模預訓練語言模型帶來的變化、ChatGPT 的關鍵技術及其局限性等角度深入地介紹了大規模語言模型的相關知識。
邱錫鵬,復旦大學計算機學院教授,MOSS 系統負責人
為什么是大語言模型?
隨著算力的不斷提升,語言模型已經從最初基于概率預測的模型發展到基于 Transformer 架構的預訓練語言模型,并逐步走向大模型的時代。為什么要突出大語言模型或是在前面加個“Large”?更重要的是它的涌現能力。
當模型規模較小時,模型的性能和參數大致符合比例定律,即模型的性能提升和參數增長基本呈線性關系。然而,當 GPT-3/ChatGPT 這種千億級別的大規模模型被提出后,人們發現其可以打破比例定律,實現模型能力質的飛躍。這些能力也被稱為大模型的“涌現能力”(如理解人類指令等)。
上圖是多個 NLP 任務隨著模型規模擴大的性能變化曲線,可以看到,前期性能和模型規模大致呈線性關系,當模型規模大到一定程度時,任務性能有了明顯的突變。
因此,通常以百億/千億級參數量作為 LLM 研究的分水嶺。除此之外,大規模語言模型基座的可擴展性很強,其能夠很容易和外部世界打通,源源不斷地接受外部世界的知識更新,進而實現反復自我迭代。因此,大規模語言模型也被看作是實現通用人工智能的希望。
ChatGPT的三個關鍵技術
目前,很多公司和組織都在跟風 ChatGPT,推出類似的聊天機器人產品。這主要是因為 ChatGPT 的成功,給人們帶來了信心,證明了聊天機器人技術的可行性和潛力,讓人們看到了聊天機器人在未來的巨大市場和應用前景。
ChatGPT 的三個關鍵技術為:情景學習、思維鏈、自然指令學習,接下來將詳細介紹一下這三個技術。
情景學習(In-context learning)
改變了之前需要把大模型用到下游任務的范式。對于一些 LLM 沒有見過的新任務,只需要設計一些任務的語言描述,并給出幾個任務實例,作為模型的輸入,即可讓模型從給定的情景中學習新任務并給出滿意的回答結果。這種訓練方式能夠有效提升模型小樣本學習的能力。
情景學習的示例圖
可以看到,只需要以自然語言的形式描述兩個情感分類任務輸入輸出的例子,LLM 就能夠對新輸入數據的情感極性進行判斷。例如,做一個電影的評論,給出相應的任務模型,即可輸出正面的回答。
思維鏈(Chain-of-Thought,CoT)
對于一些邏輯較為復雜的問題,直接向大規模語言模型提問可能會得到不準確的回答,但是如果以提示的方式在輸入中給出有邏輯的解題步驟的示例后再提出問題,大模型就能給出正確題解。也就是說將復雜問題拆解為多個子問題解決再從中抽取答案,就可以得到正確的答案。
思維鏈示意圖
如思維鏈示意圖所示,左邊是直接讓模型進行數學題的計算會得到錯誤的結果,而右側在解題過程加入了一個示例,引入解題過程則可以激發模型的推理能力,從而得到的正確的結果。
這就是一個簡單的可以通過計算能力從思維鏈中分離,有助于大模型完成任務,從而減輕神經網絡的負擔。
由于 CoT 技術能夠激發大規模語言模型對復雜問題的求解能力,該技術也被認為是打破比例定律的關鍵。
自然指令學習(Learning from Natural Instructions)
早期研究人員希望把所有的自然語言處理任務都能夠指令化,對每個任務標注數據。這種訓練方式就是會在前面添加一個“指令”,該指令能夠以自然語言的形式描述任務內容,從而使得大模型根據輸入來輸出任務期望的答案。該方式將下游任務進一步和自然語言形式對齊,能顯著提升模型對未知任務的泛化能力。
自然指令學習示意圖
如自然指令學習示意圖所示,左邊是自然指令的測試場景,人們把 NLP 任務做到 1000 多種,目前最新模型可以做到 2000 多種 NLP 任務,接下來再對 NLP 任務進行分類,比如能力 A、能力 B,大模型指令能力、泛化能力非常強,學到四五十個任務時就可以泛化到上百種任務。但距離真正的 ChatGPT 還有一步,那就是和真實的人類意圖對齊,這就是 OpenAI 做的 GPT。
核心邏輯非常簡單,一開始時讓人寫答案,但是成本太高,改成讓人來選答案,這樣對標注員的能力要求稍微低一點,可以迅速提升迭代和規模。基于打分再訓練一個打分器,通過打分器自動評價模型的好壞,然后用強化學習開始迭代,這種方法可以大規模地把數據模型迭代給轉起來,這是 OpenAI 做的 Instruct GPT 邏輯,強化學習的人類反饋。
Instruct GPT 邏輯示意圖
基于 Instruct GPT 技術路線,ChatGPT 從技術上并沒有特別好的創新,但它最偉大之處是賦予了大型語言模型對話的能力,這是個產品化創新,這個創新非常棒!
如何構建一個大語言模型?
目前,主要可以從下面四個維度來衡量大語言模型的能力。
Know Knowns:LLM 知道它知道的東西。
Know Unknowns:LLM 知道它不知道哪些東西。
Unknow Knowns:LLM 不知道它知道的東西。
Unknow Unknowns:LLM 不知道它不知道的東西。
構建對話式大型語言模型
ChatGPT 通過更大規模的預訓練,得到了更多的知識,即 Knowns 范圍擴大。
另外,ChatGPT 還關注了倫理問題,通過類似解決 Know Unknowns 的方式,利用人工標注和反饋,拒絕回答一些包含倫理問題的請求。
這里,我們也不得不提國內首個對話式大型語言模型 MOSS,從 2 月 21 日發布至公開平臺,便引起高度關注。“對話式大型語言模型 MOSS 大概有 200 億參數。和傳統的語言模型不一樣,它也是通過與人類的交互能力進行迭代。”邱錫鵬教授在分享中談到,MOSS 為何會選擇 200 億參數,原因非常簡單,它恰好具備涌現能力,與人對話的成本低。
MOSS 是基于公開的中英文數據訓練,通過與人類交互能力進行迭代優化。目前 MOSS 收集了幾百萬真實人類對話數據,也在進一步迭代優化,也具有多輪交互的能力,所以對于指令的理解能力上,通用的語義理解能力上,和ChatGPT 非常類似,任何話它都能接得住,但它的質量沒有 ChatGPT 那么好,原因在于模型比較小,知識量不夠。
ChatGPT 的局限性
為什么說 ChatGPT 對于學術上來說有一定的重要性,因為它不僅展示了通用人工智能的大框架,更是因為它可以接入多模態信息,增強思考能力、增加輸出能力,從而變成更好的通用人工智能底座,可以在學術上帶來更多的應用。
相較于 ChatGPT 本身的能力而言,它的局限性相對較少且都比較容易解決。圖靈獎得主、人工智能三巨頭之一 Yann LeCun 認為 ChatGPT 的缺點有以下幾點:
目前形式有限。當前的 ChatGPT 僅局限于文本方向,但如前面所說,可以在上游使用一些多模態模型初步解決這個問題。
并不可控。目前已有不少報道通過各種方式解鎖了模型的 Ethic 和部分 Know Unknowns 限制,但這部分可以通過更多的人工標注和對齊解決。
推理能力較差。通過思維鏈的方式,一定程度上可以增強模型推理能力。
無法與現實世界相接觸。這也是目前 ChatGPT 最大的問題之一,作為大型語言模型,它無法實時與外部世界互動,也無法利用如計算器,數據庫,搜索引擎等外部工具,導致它的知識也相對落后。
而未來它更應該做到提高適時性、即時性、無害等等。
總的來說,如果將 LLM 作為智能體本身,能夠與外部交互之后,這些模型的能力一定會有更大的提升。
但我們要始終保證這些 AI 模型的模型可信:有助、無害、誠實。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。