博客專欄

EEPW首頁 > 博客 > GPT國內的一些產品真的比國外的差嗎？（1）

GPT國內的一些產品真的比國外的差嗎？（1）

發布人：CV研究院時間：2023-06-07 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

本次討論的話題僅限于計算機視覺研究院個人觀點，若有說的不對的地方勿噴，有興趣的也可以加入我們ChatGPT討論興趣小組。

一、背景

ChatGPT到底是個啥？對于小白或者不知情的人士，其實對其還是很不了解，并且通過各種媒體報道，覺得它是一個神乎其神的產品，也是未來可替代部分勞動力的源頭。那今天我們來聊聊這個GPT，并說說國內發布的情況以及未來發展，真的國內會比國外差嗎？——這個問題是開放性問題，大家可以一起討論。

ChatGPT的橫空出世拉開了大語言模型（LLM）產業和生成式AI產業蓬勃發展的序幕。今天我們先分析“OpenAI ChatGPT的成功之路”、“國內ChatGPT產業發展趨勢”、“ChatGPT應用場景”、“ChatGPT風波下的‘危’與‘機’”四個問題。聚焦國內市場，辨析中國自研通用基礎大語言模型的重要意義、分析中國大語言模型產業參與角色分化路徑及原因、梳理呈現中國大語言模型產業受益鏈圖譜。

大模型（以LLM為主，包含多模態模型等）產業的蓬勃發展將改變數字產業生態，助力AI工業化進程、變革交互方式、創造數字產業新的增長空間。

二、分析

OpenAI ChatGPT的成功之路

ChatGPT的發展史可以追溯到2015年，美國OpenAI公司由特斯拉創始人馬斯克等硅谷大亨創立。2017年，OpenAI推出了基于Transformer模型的GPT-1，隨后于2018年推出了具有1.17億個參數的GPT-1模型。2019年，OpenAI公布了GPT-2，具有15億個參數，該模型架構與GPT-1原理相同，主要區別是比GPT-1的規模更大。2020年，OpenAI推出了最新的GPT-3模型，具有1750億個參數。GPT-3模型的訓練規模比GPT-2更大，使用了更大量的語料庫進行訓練，從而可以生成更加準確和有用的文本。2022年3月，OpenAI推出了InstructGPT模型，該模型為GPT-3的微調版，以教人為目的而訓練的 language model。2022年11月底，人工智能對話聊天機器人ChatGPT推出，短短幾個月時間，ChatGPT在2023年1月份的月活躍用戶數已達1億，這使其成為史上用戶數增長最快的消費者應用。

總的來說，ChatGPT的發展歷程曲折而精彩，OpenAI公司在人工智能領域持續探索，不斷推出新的模型和產品，旨在讓人工智能技術更好地服務于人類。

ChatGPT與InstructGPT

談到Chatgpt，就要聊聊它的“前身”InstructGPT。2022年初，OpenAI發布了InstructGPT；在這項研究中，相比 GPT-3 而言，OpenAI 采用對齊研究（alignment research），訓練出更真實、更無害，而且更好地遵循用戶意圖的語言模型 InstructGPT，InstructGPT是一個經過微調的新版本GPT-3，可以將有害的、不真實的和有偏差的輸出最小化。

InstructGPT的工作原理是什么？

開發人員通過結合監督學習+從人類反饋中獲得的強化學習。來提高GPT-3的輸出質量。在這種學習中，人類對模型的潛在輸出進行排序；強化學習算法則對產生類似于高級輸出材料的模型進行獎勵。訓練數據集以創建提示開始，其中一些提示是基于GPT-3用戶的輸入，比如“給我講一個關于青蛙的故事”或“用幾句話給一個6歲的孩子解釋一下登月”。開發人員將提示分為三個部分，并以不同的方式為每個部分創建響應：人類作家會對第一組提示做出響應。開發人員微調了一個經過訓練的GPT-3，將它變成InstructGPT以生成每個提示的現有響應。下一步是訓練一個模型，使其對更好的響應做出更高的獎勵。對于第二組提示，經過優化的模型會生成多個響應。人工評分者會對每個回復進行排名。在給出一個提示和兩個響應后，一個獎勵模型(另一個預先訓練的GPT-3)學會了為評分高的響應計算更高的獎勵，為評分低的回答計算更低的獎勵。
開發人員使用第三組提示和強化學習方法近端策略優化(Proximal Policy Optimization, PPO)進一步微調了語言模型。給出提示后，語言模型會生成響應，而獎勵模型會給予相應獎勵。PPO使用獎勵來更新語言模型。重要在何處？核心在于——人工智能需要是能夠負責任的人工智能OpenAI的語言模型可以助力教育領域、虛擬治療師、寫作輔助工具、角色扮演游戲等，在這些領域，社會偏見、錯誤信息和毒害信息存在都是比較麻煩的，能夠避免這些缺陷的系統才能更具備有用性。

Chatgpt與InstructGPT的訓練過程有哪些不同？

總體來說，Chatgpt和上文的InstructGPT一樣，是使用RLHF（從人類反饋中強化學習）訓練的。不同之處在于數據是如何設置用于訓練（以及收集）的。（注解：之前的InstructGPT模型，是給一個輸入就給一個輸出，再跟訓練數據對比，對了有獎勵不對有懲罰；現在的Chatgpt是一個輸入，模型給出多個輸出，然后人給這個輸出結果排序，讓模型去給這些結果從“更像人話”到“狗屁不通”排序，讓模型學習人類排序的方式，這種策略叫做supervised learning。

國內外競品分析

國內外主要LLMs研發路徑與技術對比（轉自艾瑞咨詢）

（轉自艾瑞咨詢）

國內外LLMs產商商業路徑對比

a、研究方向：

國外：谷歌、微軟、臉書等大型語言模型公司主要研究方向為自然語言處理技術（NLP）和人工智能（AI），致力于開發更為智能、更具有交互性的語言模型。他們將大語言模型視為未來數字世界與人類之間溝通的橋梁，以此為出發點不斷拓展技術邊界。

國內：國內公司在確保技術領先的基礎上，更加關注產業鏈的整合和布局。中國大型語言模型公司傾向于在多個領域同時發力，包括基礎層（芯片、算法、云計算）、技術層（語言模型、預訓練模型）和應用層（智能手機、智能汽車、智能家居等），旨在打造更加全面和具有綜合競爭力的產業生態。

b、商業變現：
國外：國外公司主要通過向企業出售大型語言模型提供的API服務接口來實現商業變現，或者通過將廣告投放至模型輸出結果界面等方式獲得營收。

（轉自艾瑞咨詢）

國內：國內公司則主要依靠向企業提供定制化的AI能力輸出、技術賦能和解決方案，從而實現收益。同時，基于大語言模型的AI 2.0技術也在逐步拓展到智能手機、智能汽車、智能家居等領域，通過與移動互聯網、物聯網等產業結合，實現更為豐富的應用場景和商業模式。

（轉自艾瑞咨詢）

c、未來展望：
國外：未來，國外公司將繼續深耕自然語言處理技術和人工智能領域，致力于打造更為智能、更為人性化的大語言模型。同時，國外公司也將拓展更多元化的應用場景，例如醫療、教育等領域，通過大語言模型技術的不斷升級和進步，為用戶帶來更多便利和價值。

國內：國內公司將繼續在基礎研究和應用場景方面取得平衡發展，注重提升大語言模型的智能性和可用性。同時，隨著中國產業升級和消費升級的推進，大語言模型技術將被廣泛應用于智能制造、智慧城市、智能金融等領域，為中國經濟的數字化轉型和升級提供強有力的支撐。

總體來說，國內外大語言模型產商的商業路徑存在一定差異，但都在不斷拓展技術邊界，以更好地適應市場需求和變化。隨著大語言模型技術的不斷發展和成熟，這些差異可能會逐漸縮小，而更加注重發掘模型的商業價值和技術實用性。

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

GPT國內的一些產品真的比國外的差嗎？（1）

相關推薦

技術專區