博客專欄

EEPW首頁 > 博客 > 張俊林：由ChatGPT反思大語言模型（LLM）的技術精要（1）

張俊林：由ChatGPT反思大語言模型（LLM）的技術精要（1）

發布人：AI科技大本營時間：2023-02-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

ChatGPT出現后驚喜或驚醒了很多人。驚喜是因為沒想到大型語言模型（LLM,Large Language Model）效果能好成這樣；驚醒是頓悟到我們對LLM的認知及發展理念，距離世界最先進的想法，差得有點遠。我屬于既驚喜又驚醒的那一批，也是典型的中國人，中國人善于自我反思，于是開始反思，而這篇文章正是反思的結果。

實話實說，國內在LLM模型相關技術方面，此刻，距離最先進技術的差距進一步加大了。技術領先或技術差距這事情，我覺得要動態地以發展的眼光來看。在Bert出現之后的一到兩年間，其實國內在這塊的技術追趕速度還是很快的，也提出了一些很好的改進模型，差距拉開的分水嶺應該是在 GPT 3.0出來之后，也就是2020年年中左右。在當時，其實只有很少的人覺察到：GPT 3.0它不僅僅是一項具體的技術，其實體現的是LLM應該往何處去的一個發展理念。自此之后，差距拉得越來越遠，ChatGPT只是這種發展理念差異的一個自然結果。所以，我個人認為，拋開是否有財力做超大型LLM這個因素，如果單從技術角度看，差距主要來自于對LLM的認知以及未來應往何處去的發展理念的不同。
國內被國外技術甩得越來越遠，這個是事實，不承認也不行。前陣子網上很多人擔憂說國內AI現在處于“危急存亡之秋”，我覺得倒也不至于這么嚴重。君不見，這個世界上，具備這么超前眼光的只有OpenAI一家嗎？包括Google在內，其實對于LLM發展理念的理解，明顯都落后OpenAI一個身位?，F實是OpenAI表現過于優秀，把所有人都甩開了，不僅僅是國內。
我覺得，OpenAI對LLM在理念及相關技術方面，領先國外的Google、DeepMind大約半年到一年的時間，領先國內大概兩年左右的時間。在LLM這個事情上，感覺梯隊很明顯，Google應該是排在第二位，最能體現Google技術眼光的是PaLM和Pathways，推出時間大概在22年2月到4月間，同一時期，OpenAI推出的卻是InstructGPT，從這里就可以看出Google和OpenAI的差距了，至于為何這么說，你看了我后面的正文后大概能理解。DeepMind之前的重心一直在強化學習攻克游戲和AI for science這些方面，切入LLM其實很晚，應該是21年才開始重視這個方向，目前也處于追趕狀態。Meta就更不用說了，重心一直不在LLM上，目前感覺也發力開始追趕。這還是目前做得最好的一批機構，尚且如此，更何況國內呢？我覺得情有可原。至于OpenAI關于LLM的理念是什么，我在本文的最后一部分，會談談我的認知。
本文梳理自GPT 3.0出現之后的主流LLM技術，在此之前的主流技術可以參考：《乘風破浪的PTM：兩年來預訓練模型的技術進展》
https://zhuanlan.zhihu.com/p/254821426
我相信看完這兩篇文章，能夠讓您對LLM領域的技術脈絡，LLM技術發展過程中出現過的不同發展理念，乃至未來可能的發展趨勢，有比較清晰的認知。當然，很多地方講的內容是我個人看法，有很大的主觀性，錯漏難免，所以還請謹慎參考。
本文試圖回答下面一些問題：ChatGPT是否帶來了NLP乃至AI領域的研究范式轉換？如果是，那會帶來怎樣的影響？LLM從海量數據中學到了什么知識？LLM又是如何存取這些知識的？隨著LLM規模逐步增大，會帶來什么影響？什么是In Context Learning?為什么它是一項很神秘的技術？它和Instruct又是什么關系？LLM具備推理能力嗎？思維鏈CoT又是怎么做的？等等，相信看完，能讓您對這些問題有一個答案。
首先，在談LLM技術現狀前，先宏觀地談下我心目中的研究范式轉換問題。這樣，我們才能“先見森林，再見樹木”，對具體技術為何會是如此變化有個更清晰的認知。

01 潮流之巔：NLP研究范式的轉換

如果我們把時間線往前拉得更長一些，回到NLP領域的深度學習時代，在更長時間窗口內觀察技術變遷及其影響，可能會更容易看清其中的一些關鍵節點。我個人認為，在最近10年來NLP領域的技術發展過程中，可能存在兩次大的研究范型轉換。

1. 范式轉換1.0:從深度學習到兩階段預訓練模型

這個范式轉換所涵蓋的時間范圍，大致在深度學習引入NLP領域（2013年左右），到GPT 3.0出現之前（2020年5月左右）。

在Bert和GPT模型出現之前，NLP領域流行的技術是深度學習模型，而NLP領域的深度學習，主要依托于以下幾項關鍵技術：以大量的改進LSTM模型及少量的改進CNN模型作為典型的特征抽取器；以Sequence to Sequence（或叫encoder-decoder亦可）+Attention作為各種具體任務典型的總體技術框架。

在這些核心技術加持下，NLP領域深度學習的主要研究目標，如果歸納一下，是如何有效增加模型層深或模型參數容量。就是說，怎么才能往encoder和decoder里不斷疊加更深的LSTM或CNN層，來達成增加層深和模型容量的目標。這種努力，盡管確實不斷增加了模型層深，但是從解決具體任務的效果角度看，總體而言，不算很成功，或者說和非深度學習方法相對，帶來的優勢不算大。

深度學習之所以不夠成功，我認為主要原因來自于兩個方面：一方面是某個具體任務有限的訓練數據總量。隨著模型容量的增加，需要靠更大量的訓練數據來支撐，否則即使你能把深度做起來，任務效果也做不上去。而在預訓練模型出現之前，很明顯這是NLP研究領域一個嚴重問題；另外一個方面是LSTM／CNN特征抽取器，表達能力不夠強。意思是就算給你再多的數據也沒用，因為你不能有效地吸收數據里蘊含的知識。主要應該是這兩個原因，阻礙了深度學習在NLP領域的成功突圍。

Bert/GPT這兩個預訓練模型的出現，無論在學術研究角度看，還是工業應用角度來看，都代表了NLP領域的一個技術飛躍，并帶來了整個領域研究范式的轉換。這種范式轉換帶來的影響，體現在兩個方面：首先，是部分NLP研究子領域的衰退乃至逐步消亡；其次，NLP不同子領域的技術方法和技術框架日趨統一，在Bert出現后一年左右，技術棧基本收斂到兩種技術模式中。關于這兩點，我們分頭來談。

影響一：中間任務的消亡

NLP是一個宏觀研究領域的統稱，里面有五花八門具體的子領域與子方向，如果仔細分析，從任務的性質角度，可以把這些任務分成兩大類：一類可以叫做“中間任務”，一類可以稱為“最終任務”。

典型的中間任務包括：中文分詞、詞性標注、NER、句法分析、指代消解、語義Parser等，這類任務一般并不解決應用中的實際需求，大多數是作為那些解決實際需求任務的中間階段或者輔助階段存在的，比如幾乎沒有需求說，我要一個句法Parser，把這個句子的句法分析樹給用戶看看，用戶不需要看到這些NLP的中間階段處理結果，他只關心某個具體任務你有沒有干好?！白罱K任務”包括比如文本分類、文本相似性計算、機器翻譯、文本摘要等等，有很多。這類任務的特點是每個子領域都解決某個實際需求，任務結果基本能直接呈現給用戶，比如用戶確實存在給你一句英文，告訴他中文是什么的需求。

按理說，“中間任務”就不應該出現，而之所以會存在，這是NLP技術發展水平不夠高的一種體現。在技術發展早期階段，因為當時的技術相對落后，很難一步做好有難度的最終任務。比如機器翻譯，早期技術要做好機器翻譯是很困難的，于是科研人員就把難題分而治之，分解成分詞、詞性標注、句法分析等各種中間階段，先把每個中間階段做好，然后再拼起來完成最終任務，這也是沒辦法的事情。

但是自從Bert／GPT出現之后，其實就沒有必要做這些中間任務了，因為通過大量數據的預訓練，Bert／GPT已經把這些中間任務作為語言學特征，吸收到了Transformer的參數里，此時我們完全可以端到端地直接解決那些最終任務，而無須對這種中間過程專門建模。這里可能爭議最大的是中文分詞，其實道理也是一樣的，哪些字應該組成一個詞，這個其實你不用管，讓LLM自己當特征去學就行了，只要對于解決任務有幫助，它自然會去學該學的合理分詞方式，也未必一定要和我們人類理解的分詞規則相同。

基于以上認知，其實在Bert/GPT一出現，你就應該得出這類NLP的中間階段的任務，會逐步退出歷史舞臺這個結論。

影響二：不同研究方向技術路線的統一

在說明具體影響前，我們先討論下另外一種NLP任務劃分方式，這對于理解后面內容有幫助。如果對“最終任務”進一步進行分類，又大致可以分為兩大不同類型的任務：自然語言理解類任務和自然語言生成類任務。如果排除掉“中間任務”的話，典型的自然語言理解類任務包括文本分類、句子關系判斷、情感傾向判斷等，這種任務本質上都是分類任務，就是說輸入一個句子（文章），或者兩個句子，模型參考所有輸入內容，最后給出屬于哪個類別的判斷。自然語言生成也包含很多NLP研究子方向，比如聊天機器人、機器翻譯、文本摘要、問答系統等。生成類任務的特點是給定輸入文本，對應地，模型要生成一串輸出文本。這兩者的差異主要體現在輸入輸出形式上。

自從Bert/GPT模型誕生后，出現了明顯的技術統一趨向。首先，NLP中不同的子領域，其特征抽取器都逐漸從LSTM/CNN統一到Transformer上。其實，自Bert公開后不久，就應該意識到，這必然會成為技術趨勢。至于其原因，在幾年前我寫的這篇：

《放棄幻想，全面擁抱Transformer：自然語言處理三大特征抽取器（CNN/RNN/TF）比較》
https://zhuanlan.zhihu.com/p/54743941

文章中做了說明和分析，感興趣的同學可參考。而且，目前Transformer不僅統一了NLP諸多領域，也正在逐步地替換圖像處理各種任務中被廣泛使用的CNN等其它模型的進程之中，類似的，多模態模型目前也基本都采用了Transformer模型。這種Transformer從NLP出發，攻城略地逐步統一AI越來越多領域的趨勢，起始于2020年底出現的Vision Transformer (ViT) ，之后蓬勃發展，到目前已大獲成功，且其繼續向更多領域拓展的勢頭會越來越迅猛。

其次，大多數NLP子領域的研發模式切換到了兩階段模式：模型預訓練階段+應用微調（Fine-tuning）或應用Zero／Few Shot Prompt模式。更準確地說，NLP各種任務其實收斂到了兩個不同的預訓練模型框架里：對于自然語言理解類任務，其技術體系統一到了以Bert為代表的“雙向語言模型預訓練+應用Fine-tuning”模式；而對于自然語言生成類任務，其技術體系則統一到了以GPT 2.0為代表的“自回歸語言模型（即從左到右單向語言模型）+Zero /Few Shot Prompt”模式。至于為何會分化成兩條技術路線，有其必然性，關于這點我們放在后面解釋。

這兩種模式，看似比較相像，但其背后蘊含了迥異的發展思路，也會導向不同的未來發展方向。不過遺憾的是，我們中的絕大多數人，在當時都低估了GPT 這條發展路線的潛力，而把視覺中心聚焦到了Bert這種模式上。

2. 范式轉換2.0: 從預訓練模型走向通用人工智能（AGI，Artificial General Intelligence）

這個范式轉換所涵蓋的時間范圍，大致在GPT3.0出現之后（20年6月左右），一直到目前為止，我們應該正處于這個范式轉換過程中。

ChatGPT是觸發這次范型轉換的關鍵節點，但是在InstructGPT出現之前，其實LLM處于這次范式轉換前的一個過渡期。

過渡期：以GPT 3.0為代表的“自回歸語言模型+Prompting”模式占據統治地位

前面說過，在預訓練模型發展的早期，技術框架收斂到了Bert模式和GPT模式這兩種不同的技術范型，而且人們普遍更看好Bert模式一些，相當多數的后續技術改進，都是沿著Bert那條路走的。但是，隨著技術的繼續發展，你會發現，目前規模最大的LLM模型，幾乎清一色都是類似GPT 3.0這種“自回歸語言模型+Prompting”模式的，比如GPT 3、PaLM、GLaM、Gopher、Chinchilla、MT-NLG、LaMDA等，沒有例外。為什么會這樣呢？背后一定有其必然性，我認為可能主要源于兩個原因。

首先，Google的T5模型，在形式上統一了自然語言理解和自然語言生成任務的外在表現形式。如上圖所示，標為紅色的是個文本分類問題，黃色的是判斷句子相似性的回歸或分類問題，這都是典型的自然語言理解問題。在T5模型里，這些自然語言理解問題在輸入輸出形式上和生成問題保持了一致，也就是說，可以把分類問題轉換成讓LLM模型生成對應類別的字符串，這樣理解和生成任務在表現形式就實現了完全的統一。

這說明自然語言生成任務，在表現形式上可以兼容自然語言理解任務，若反過來，則很難做到這一點。這樣的好處是：同一個LLM生成模型，可以解決幾乎所有NLP問題。而如果仍然采取Bert模式，則這個LLM模型無法很好處理生成任務。既然這樣，我們當然傾向于使用生成模型，這是一個原因。

第二個原因，如果想要以零示例提示語（zero shot prompting）或少數示例提示語（few shot prompting）的方式做好任務，則必須要采取GPT模式?，F在已有研究（參考：On the Role of Bidirectionality in Language Model Pre-Training）證明：如果是以fine-tuning方式解決下游任務，Bert模式的效果優于GPT模式；若是以zero shot/few shot prompting這種模式解決下游任務，則GPT模式效果要優于Bert模式。這說明了，生成模型更容易做好zero shot/few shot prompting方式的任務，而Bert模式以這種方式做任務，是天然有劣勢的。這是第二個原因。

但是問題來了：為什么我們要追求zero shot/few shot prompting這種方式來做任務呢？要解釋清楚這個問題，我們首先需要搞清楚另外一個問題：什么樣的LLM模型，對我們是最理想的？

上圖展示了一個理想的LLM該有的樣子。首先，LLM應該具備強大的自主學習能力。假設我們把世界上能獲得的所有文本或者圖片等不同類型的數據喂給它，它應該能夠自動從中學習到里面包含的所有知識點，學習過程不需要人的介入，并且能靈活應用所學知識，來解決實際問題。因為數據是海量的，要吸收所有知識，就要非常多的模型參數來存儲知識，所以這個模型必然會是一個巨無霸模型。

其次，LLM應該能解決NLP任何子領域的問題，而不僅支持有限領域，甚至它應該可以響應NLP之外其它領域的問題，最好是任意領域的問題都能得到很好地回答。再者，當我們使用LLM解決某個具體領域問題的時候，應該用我們人類習慣的表達方式，就是說LLM應該理解人類的命令。這體現出讓LLM適配人，而不是反過來，讓人去適配LLM模型。人適配LLM的典型例子，比如絞盡腦汁去嘗試各種不同的prompt，以試圖找到好的提示語，才能很好地解決手頭問題。關于這點，上圖在人類和LLM交互的接口層，舉了幾個例子，說明什么是好的人使用LLM模型的接口形式。

看完這個理想中的LLM，我們再回頭解釋上面遺留的問題：為什么我們要追求zero shot/few shot prompting這種方式來做任務呢？有兩個原因。

第一，這個LLM模型規模必然非常巨大，有能力作出這個模型，或改動這個模型參數的機構必然很少。而任務需求方是千千萬萬的中小機構甚至是個人，就算你把模型開源出來，他們也無力部署這個模型，更不用說再用Fine-tuning這種模式去修改模型參數了。所以，我們應該追求不修正模型參數，就能讓任務需求方完成任務的方式，也就是應該采取prompt模式完成任務，而非Fine-tuning模式（由此可看出，soft prompting技術方向是違背這個發展趨勢的）。模型制作方則將LLM作成公用服務，以LLM as Service的模式運行。作為服務支持方，考慮到千變萬化的用戶需求，所以LLM模型制作方更要追求讓LLM能完成盡可能多類型的任務，這是附帶的影響，也是為何超級大模型一定會追求走向AGI的現實因素。

第二，zero shot prompting也好，few shot prompting也好，甚至促進LLM推理能力的思維鏈（CoT,Chain of Thought）Prompting也好，就是上圖中接口層中的現有技術。具體而言，zero shot prompting的初衷，其實就是人類和LLM的理想接口，直接用人類所習慣的任務表述方式讓LLM做事情，但是發現LLM并不能很好地理解，效果也不好。經過繼續研究，轉而發現：對于某項任務，如果給LLM幾個示例，用這些示例來代表任務描述，效果會比zero shot prompting好，于是大家都去研究更好的few shot prompting技術。可以理解為，本來我們希望LLM能夠用人類常用的命令方式來執行某個任務，但是目前技術還做不到，所以退而求其次，用這些替代技術來表達人類的任務需求。

如果理解了上述邏輯，很容易得出如下結論：few shot prompting（也被稱為In Context Learning）只是一種過渡時期的技術。如果我們能夠更自然地去描述一個任務，而且LLM可以理解，那么，我們肯定會毫不猶豫地拋棄這些過渡期的技術，原因很明顯，用這些方法來描述任務需求，并不符合人類的使用習慣。

這也是為何我將GPT 3.0+Prompting列為過渡期技術的原因，ChatGPT的出現，改變了這個現狀，用Instruct取代了Prompting，由此帶來新的技術范式轉換，并產生若干后續影響。

影響一：讓LLM適配人的新型交互接口

在理想LLM的背景下，我們再來看ChatGPT，能更好理解它的技術貢獻。ChatGPT應該是目前所有的現有技術里，最接近理想LLM的技術方法。如果歸納下ChatGPT最突出特點的話，我會用下面八個字：“能力強大，善解人意”。

“能力強大”這一點，我相信應該主要歸功于ChatGPT所依托的基礎LLM GPT3.5。因為ChatGPT 盡管加入了人工標注數據，但是量級只有數萬，這個規模的數據量，和訓練GPT 3.5模型使用的幾千億token級別的數據量相比，包含的世界知識（數據中包含的事實與常識）可謂滄海一粟，幾可忽略，基本不會對增強GPT 3.5的基礎能力發揮什么作用。所以它的強大功能，應該主要來自于隱藏在背后的GPT 3.5。GPT 3.5對標理想LLM模型中的那個巨無霸模型。

那么，ChatGPT向GPT 3.5模型注入新知識了嗎？應該是注入了，這些知識就包含在幾萬人工標注數據里，不過注入的不是世界知識，而是人類偏好知識。所謂“人類偏好”，包含幾方面的含義：首先，是人類表達一個任務的習慣說法。比如，人習慣說：“把下面句子從中文翻譯成英文”，以此表達一個“機器翻譯”的需求，但是LLM又不是人，它怎么會理解這句話到底是什么意思呢？你得想辦法讓LLM理解這句命令的含義，并正確執行。所以，ChatGPT通過人工標注數據，向GPT 3.5注入了這類知識，方便LLM理解人的命令，這是它“善解人意”的關鍵。其次，對于什么是好的回答，什么是不好的回答，人類有自己的標準，例如比較詳細的回答是好的，帶有歧視內容的回答是不好的，諸如此類。這是人類自身對回答質量好壞的偏好。人通過Reward Model反饋給LLM的數據里，包含這類信息?？傮w而言，ChatGPT把人類偏好知識注入GPT 3.5，以此來獲得一個聽得懂人話、也比較禮貌的LLM。

可以看出，ChatGPT的最大貢獻在于：基本實現了理想LLM的接口層，讓LLM適配人的習慣命令表達方式，而不是反過來讓人去適配LLM，絞盡腦汁地想出一個能Work的命令（這就是instruct技術出來之前，prompt技術在做的事情），而這增加了LLM的易用性和用戶體驗。是InstructGPT/ChatGPT首先意識到這個問題，并給出了很好的解決方案，這也是它最大的技術貢獻。相對之前的few shot prompting，它是一種更符合人類表達習慣的人和LLM進行交互的人機接口技術。

而這必將啟發后續的LLM模型，繼續在易用人機接口方面做進一步的工作，讓LLM更聽話。

影響二：很多NLP子領域不再具備獨立研究價值

就NLP領域而言，這次范式轉換，意味著很多目前獨立存在的NLP研究領域，將被納入LLM的技術體系，進而不再獨立存在，逐步消失。經過第一次范式轉換，盡管NLP中很多“中間任務”，繼續作為獨立研究領域存在不再必要，但是大多數“最終任務”，仍然是以獨立研究領域存在的，只是切換成在“預訓練+fine-tuning”框架下，面對領域獨有問題，陸續提出新的改進方案。

目前研究表明，很多NLP任務，隨著LLM模型規模增長，效果會大幅提升。據此，我覺得可得到如下推論：大多數某領域所謂“獨有”的問題，大概率只是缺乏領域知識導致的一種外在表象，只要領域知識足夠多，這個所謂領域獨有的問題，就可以被很好地解決掉，其實并不需要專門針對某個具體領域問題，冥思苦想去提出專用解決方案。也許AGI的真相超乎意料地簡單：你只要把這個領域更多的數據交給LLM，讓它自己學習更多知識即可。

在這個背景下，同時，ChatGPT證明了我們現在是可以直接去追求理想LLM模型的，那么，未來的技術發展趨勢應該是：追求規模越來越大的LLM模型，通過增加預訓練數據的多樣性，來涵蓋越來越多的領域，LLM自主從領域數據中通過預訓練過程學習領域知識，隨著模型規模不斷增大，很多問題隨之得到解決。研究重心會投入到如何構建這個理想LLM模型，而非去解決某個領域的具體問題。這樣，越來越多NLP的子領域會被納入LLM的技術體系，進而逐步消失。

我認為，判斷某個具體領域是否該立即停止獨立研究，其判斷標準可采取以下兩種方法，占其一即可：第一，判斷某個任務，是否LLM的研究效果超過人類表現，對于那些LLM效果超過人類的研究領域，已無獨立研究的必要。舉個例子，GLUE與SuperGLUE測試集合里的很多任務，目前LLM效果已超過人類表現，與這個數據集合密切相關的研究領域，其實就沒有繼續獨立存在的必要。第二，對比兩種模式的任務效果，第一種模式是用較大的領域專用數據進行Fine-tuning，第二種是few-shot prompting或instruct-based方法。如果第二種方法效果達到或超過第一種方法，則意味著這個領域沒有繼續獨立存在的必要性。如果用這個標準來看，其實很多研究領域，目前fine-tuning效果還是占優的（因為這種模式領域訓練數據量大），看似還可獨立存在。但是考慮到很多任務隨著模型規模增大，few shot prompting效果持續增長，隨著更大模型的出現，這個拐點很可能短期就會達到。

如果上述猜測成立，將意味著如下殘酷事實：對于很多NLP領域的研究人員，將面臨往何處去的選擇，是繼續做領域獨有問題呢？還是放棄這種看似前途不大的方式，轉而去建設更好的LLM？如果選擇轉向去建設LLM，又有哪些機構有能力、有條件去做這個事情呢？你對這個問題的回答會是什么呢？

影響三：更多NLP之外的研究領域將被納入LLM技術體系

如果站在AGI的視角，參照之前描述的理想LLM模型，它所能完成的任務，不應局限于NLP領域，或某一兩個學科領域，理想中的LLM應該是領域無關的通用人工智能模型，它現在在某一兩個領域做得好，不代表只能做這些任務。ChatGPT的出現，證明了現在這個時期，我們去追求AGI是有可行性的，而現在是拋開“領域學科”這個思維束縛的時候了。

ChatGPT除了展示出以流暢的對話形式解決各種NLP任務外，也具備強大的代碼能力。很自然的，之后越來越多其它的研究領域，也會被逐步納入LLM體系中，成為通用人工智能的一部分。

LLM從NLP向外進行領域拓展，一個自然的選擇就是圖像處理及多模態相關任務。目前已經有些工作在嘗試把多模態融入，讓LLM成為一個支持多模態輸入輸出的通用人機接口，典型的例子包括DeepMind的Flamingo和微軟的“Language Models are General-Purpose Interfaces”，上圖展示了這種方式的概念結構。

我的判斷是無論是圖像還是多模態，未來被融入LLM成為好用的功能，可能比我們想象的進度要慢。主要原因在于：盡管圖像領域最近兩年也一直在模仿Bert預訓練的路子，嘗試引入自監督學習，釋放模型自主從圖像數據中學習知識的能力，典型技術就是“對比學習”和MAE，這是兩條不同的技術路線。然而，從目前效果來看，盡管取得了很大的技術進步，但貌似這條路尚未走通，這體現在圖像領域預訓練模型應用到下游任務，帶來的效果收益，遠不如Bert或GPT應用在NLP下游任務那樣顯著。所以，圖像預處理模型仍需深入探索，以釋放圖像數據的潛力，而這會遲滯它們被統一到LLM大模型的時間。當然，如果哪天這條路被趟通，大概率會復現NLP領域目前的局面，就是圖像處理各個研究子領域可能會逐步消失，被融入到大型LLM中來，直接完成終端任務。

除了圖像與多模態，很明顯，其它領域也會逐漸被納入到理想LLM中來，這個方向方興未艾，是具備高價值的研究主題。

以上是我對范式轉換的個人思考，接下來，我們來梳理下GPT 3.0之后LLM模型的主流技術進展。如理想LLM模型所示，相關的技術其實可以分為兩大類；一類是關于LLM模型如何從數據中吸收知識，也包括模型規模增長對LLM吸收知識能力帶來的影響；第二類是關于人如何使用LLM內在能力來解決任務的人機接口，包括In Context Learning和Instruct兩種模式。思維鏈（CoT）prompting這種LLM推理技術，本質上也屬于In Context Learning，因為比較重要，我就把它們單獨拎出來講一下。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

張俊林：由ChatGPT反思大語言模型（LLM）的技術精要（1）

相關推薦

技術專區