博客專欄

        EEPW首頁 > 博客 > 復旦發布中國版ChatGPT:MOSS開啟測試沖上熱搜,服務器擠爆

        復旦發布中國版ChatGPT:MOSS開啟測試沖上熱搜,服務器擠爆

        發布人:傳感器技術 時間:2023-02-22 來源:工程師 發布文章

        機器之心報道

        編輯:澤南、蛋醬

        不知道這個人工智能,有沒有獲得完整的一生。


        ChatGPT 是最先進的 AI,也是最熱門的應用 —— 自去年 11 月底發布以來,它的月活躍用戶兩個月超過一億,輕松拿到了全球互聯網史上用戶增長速度的第一。
        它也是一種門檻很高的技術。由于 ChatGPT 的訓練過程所需算力資源大、標注成本高,目前國內暫未出現對大眾開放的同類產品。百度、阿里、京東等互聯網大廠都放出消息,表示正在打造「國產 ChatGPT」,并將在近期發布。
        在各大廠產品到位之前,學界先有了消息。2 月 20 日晚,復旦大學自然語言處理實驗室發布了具備 ChatGPT 能力的語言模型 ——MOSS,并面向大眾公開邀請內測。 

        • MOSS 體驗鏈接:https://moss.fastnlp.top/
        • MOSS 項目主頁:https://txsun1997.github.io/blogs/moss.html


        圖片


        MOSS 的名稱來自電影《流浪地球》,和電影一樣火的是,MOSS 發布的消息很快沖上了知乎等平臺熱搜榜的第一位。

        圖片


        不過與科幻不同的是,現實世界的 AI 還沒有量子計算機加持,距離開放還沒有過 24 個小時,由于瞬時訪問壓力過大,MOSS 服務器昨晚已被擠爆,可見大家對于生成語言模型的期待程度有多高。
        據復旦大學研究人員介紹,目前在內測,與用戶交互迭代優化,不適合公測。

        圖片


        我們知道,自然語言處理是 AI 領域的最大挑戰之一,雖然突破已經出現,但這個月上線的新必應搜索,以及谷歌發布的競品 BARD 在測試中不時會出現問題,復旦大學的 MOSS 水平如何呢?
        對話 MOSS,水平如何?
        MOSS 的基礎功能與 ChatGPT 類似,可以按照用戶輸入的指令完成各類自然語言處理任務,包括文本生成、文本摘要、翻譯、代碼生成、閑聊等等。在預覽期間,MOSS 的使用是免費的。

        圖片


        MOSS 和 ChatGPT 一樣,構建的過程包括自然語言基礎模型訓練,以及理解人類意圖的對話能力訓練兩個階段。

        圖片


        據項目主頁介紹,MOSS 和 ChatGPT 的主要區別在于:

        • MOSS 的參數數量比 ChatGPT 少得多。
        • MOSS 通過與人類和其他人工智能模型交談來學習,而 ChatGPT 則通過人類反饋強化學習(RLHF)進行訓練。
        • MOSS 將是開源的,以促進未來的研究,但 ChatGPT 可能不會。


        MOSS 的對話水平如何,讓我們看幾個示例。以下是 MOSS 生成的一些交互記錄:

        圖片


        在這個例子中,用戶首先要求 MOSS 推薦五部科幻電影,接著要求 MOSS 生成了一個表格來展示這些電影以及它們的導演,最后要求 MOSS 在表格中新插入一列來展示這些電影的上映年份。完成這一任務需要語言模型具備強大的多輪交互能力和指令理解能力,MOSS 顯然在這兩方面表現優異。
        與 ChatGPT 類似,MOSS 有時也會輸出一些事實性錯誤的例子,比如例子中《黑客帝國》的導演并不是 Thomas Neff,而是沃卓斯基兄弟(姐妹)。
        除了多輪對話,MOSS 生成代碼也不在話下。在下面的例子中,MOSS 不僅可以為用戶提供實現快速排序的 Python 代碼,還能在用戶的要求下對這段代碼提供解釋和使用示例,可謂是手把手教學的程序員了。

        圖片


        除了讓 MOSS 幫忙寫代碼之外,還可以向 MOSS 詢問有關代碼細節的問題,讓其更好地幫助理解代碼。在下面的例子中,用戶向 MOSS 詢問了一段代碼的編程語言和功能,并進一步提問了其中一個函數的作用,MOSS 均給出了滿意的回復。

        圖片


        此外,MOSS 還具備人類的價值觀,當被要求回答不合理的問題時,MOSS 會拒絕回答并給出正確的勸導。

        圖片


        據了解,MOSS 采用參數量為百億級的自研模型進行訓練。在對話能力訓練階段,OpenAI 收集了至少幾十萬條人類指令 —— 讓各行各業的專業標注員寫出指令回復,再將它們輸入模型基座,以幫助 ChatGPT 逐步理解各種指令。復旦團隊則采用不同的技術路線,通過讓 MOSS 和人類以及其它 AI 模型都進行交互,顯著提升了學習效率和研發效率,短時間內高效完成了對話能力訓練。
        研發團隊表示,雖然 MOSS 已經實現了 ChatGPT 的一些功能,但仍然存在許多限制,由于缺乏高質量的數據、計算資源和模型容量,MOSS 仍然遠遠落后于 ChatGPT。

        • 由于訓練數據中的多語言語料庫有限,MOSS 在理解和生成英語以外的語言的文本方面表現不佳。團隊目前正在開發一個改進版本,以提高其中文語言技能。
        • 由于模型容量相對較小,MOSS 不包含足夠的世界知識。因此,MOSS 生成的一些響應可能包含誤導性或虛假信息。
        • 有時 MOSS 以迂回的方式執行,甚至未能遵循指示。在這種情況下,用戶可能需要重新生成幾次或修改 prompt,以獲得令人滿意的回復。團隊正在積極提高其遵循指示的能力以及生產力。
        • 有時 MOSS 可能會因 prompt 生成不道德或有害的反應。用戶可通過單擊 “不喜歡” 來幫助減少此類行為,團隊將在下一個版本中更新模型。


        研究團隊指出,當前版本的 MOSS 表現仍不穩定,也受到數據集問題的影響:「MOSS 的英文回答水平比中文高,因為它的模型基座學習了 3000 多億個英文單詞,中文詞語只學了約 300 億個。」
        發布之后,團隊將持續通過提供 MOSS 的可訪問界面,根據寶貴的用戶反饋(在許可下)不斷改進模型。
        ,時長00:37


        未來,研究人員還計劃結合復旦在人工智能和相關交叉學科的研究成果,賦予 MOSS 繪圖、語音、譜曲等多模態能力,并加強它輔助科學家進行高效科研的能力等。
        期待 MOSS 能為國內對話大模型的發展開一個好頭。
        團隊介紹
        MOSS 的主要作者共有兩位:復旦大學教授邱錫鵬和他的博士生孫天祥。此外還有多位成員對項目有所貢獻。

        圖片


        邱錫鵬,復旦大學計算機科學技術學院教授,博士生導師。國家優青獲得者,于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,發表 CCF A/B 類論文 70 余篇,獲得 ACL 2017 杰出論文獎(CCF A 類)、CCL 2019 最佳論文獎、《中國科學:技術科學》2021 年度高影響力論文獎,有 5 篇論文入選 PaperDigest 發布的 IJCAI/ACL/EMNLP 的最有影響力論文(被引用數進入前當屆會議的 20 名)。出版開源專著《神經網絡與深度學習》,Github 關注數 1.5 萬,豆瓣評分 9.4 分。主持開發了開源框架 FudanNLP 和 FastNLP,已被國內外數百家單位使用。2015 年入選首屆中國科協青年人才托舉工程項目,2018 年獲錢偉長中文信息處理科學技術獎青年創新獎一等獎,2020 獲第四屆上海高校青年教師教學競賽優等獎,2021 年獲首屆上海市計算機學會教學成果獎一等獎(第一完成人)等。培養學生多次獲得一級學會優博、微軟學者、百度獎學金等。

        圖片


        孫天祥,復旦大學計算機科學學院博士生,導師為邱錫鵬教授和黃萱菁教授。2019 年畢業于西安電子科技大學。研究興趣集中于機器學習及其在自然語言處理中的應用,特別是預訓練語言模型的高效微調及推理、多任務學習、知識表示學習等。以第一作者在 ICML, ACL, NAACL, AAAI, COLING 等會議發表多篇論文。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 復旦

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 新邵县| 福鼎市| 无棣县| 中方县| 安吉县| 德令哈市| 中牟县| 西和县| 神农架林区| 揭东县| 黄大仙区| 永春县| 富宁县| 洪洞县| 友谊县| 仙桃市| 陇川县| 白朗县| 临夏县| 安龙县| 惠来县| 上杭县| 胶州市| 宁武县| 抚顺县| 三穗县| 鹿邑县| 秦皇岛市| 通海县| 如东县| 定结县| 珲春市| 安宁市| 海伦市| 监利县| 甘孜县| 永善县| 丰台区| 临城县| 忻州市| 富裕县|