博客專欄

        EEPW首頁 > 博客 > WAIC 2023 | 微軟Office產品團隊技術負責人蔡瑋鑫:Copilot中大語言模型應用實踐經驗

        WAIC 2023 | 微軟Office產品團隊技術負責人蔡瑋鑫:Copilot中大語言模型應用實踐經驗

        發布人:機器之心 時間:2023-07-19 來源:工程師 發布文章
        以下為演講的詳細內容,機器之心進行了不改變原意的編輯、整理。


        大家好,我是蔡瑋鑫,微軟 Office Product Group 的技術負責人。今天我要談的話題是將大語言模型投入大規模應用生產要面臨的挑戰和機遇,并將分享我們團隊搭建微軟 Office 中第一波大語言模型應用的關鍵經驗。
        我今天的演講分為兩部分:第一部分是對新興大語言模型應用的評估,第二部分為構建交互式文本生成的一些成功案例。

        圖片


        評估新型大語言模型的應用
        我從事自然語言處理模型的生產工作已經 9 年了,還是首位啟動 M365 Copilot 功能背后核心技術的應用科學家。
        對于不熟悉 M365 Copilot 的人來說,Copilot 只需要簡短的提示,就可以和用戶一起進行寫作、編輯、總結和創作。
        Word 文檔中的 Copilot 將為你創建一個初稿,根據需要從整個結構中引入信息。Copilot 可以將內容添加到現有文件中,總結文本、重寫部分或整個文件,使其更加簡潔。你甚至可以得到 Copilot 建議的語氣,如專業、熱情、隨意、感謝等,從而幫助你寫出合適的內容。我們旨在通過 M365 Copilot 將大語言模型的力量賦能給全球數以百萬計的用戶,使他們成為最優秀的作家。

        圖片


        傳統指標帶來的評估局限
        在我們開發這兩種新應用時,指標成為模型評估的瓶頸。傳統指標(如 BLEU、ROUGE、BERTScore)的問題在于它們與客戶滿意度及模型效用只有較弱的相關性,這是因為一次性 (one-shot) 文本生成很難,長文本生成就更難了。對于傳統自然語言生成指標來說,識別和分辨幻覺問題、自洽性、符合主題或離題以及邏輯的正確性(如否定)尤其具有挑戰性。
        這里以一個關于 Geoffrey Hinton 的段落為例:紅色是幻覺問題,紫色是離題內容。

        圖片

         新方案增強客戶滿意度相關性
        為了使模型與客戶滿意度有更強的相關性,我們提出了以下在創意寫作方面的質量衡量指標:連貫性、顯著性、新穎性、幻覺、風格 / 語氣適配性、流暢度、令人不安或具有攻擊性或有害的內容、有偏見的內容以及總體評價(接受或拒絕)。

        圖片


        具體來說:

        • 連貫性指標衡量的是輸出句子在多大程度上是有邏輯的,并且有清晰的過渡詞來連接。口頭語、隱喻和暗喻元素的使用應該是一致和正確的。
        • 顯著性指標需要衡量輸出內容是否遵循用戶的 prompt 指令。
        • 新穎性指標很重要,因為易于啟發用戶的創造性內容可以幫助他們克服 「寫作障礙」。
        • 幻覺問題是可以被減輕且應該被衡量。這是因為不管是封閉世界還是開放世界,幻覺問題都不應該存在,應當展示給用戶最直接的一面。
        • 風格 / 語氣應該匹配用戶個性和現有語境。
        • 流暢度指標衡量的是輸出內容在語法上是否足夠準確,要求文本不包含重復的信息,包括詞匯和上下文。
        • 衡量負責任 AI 的指標應確保 AI 不含攻擊性、褻瀆性的語言,沒有種族、性別、宗教、職業或政治方面的刻板印象。AI 不應該有對某一群體或意識形態的歧視,不應該涉及仇恨的言論、暴力、性裸露、自殺念頭或敏感話題。有偏見內容指標確保我們不應該在輸出中包含性別、種族、政治、宗教或其他方面的偏見,即使有些內容已經被大模型的預訓練記住了。
        • 此外,指標中還有輸出質量的整體喜歡程度。

         在確定了所有這些指標后,我們采取了人工和機器評估相結合的方式,因為很多方面不能僅僅通過模型來衡量。在這里,我們也取得了一些使用大語言模型作為評估指標的初步成功。特別是在模型迭代的早期,我們開發了基于思維鏈和自洽性的大語言模型指標,實現了對有參考和無參考的任務進行自動評估。這里是對該領域相關研究的一些引用源。 構建交互式文本生成
        演講的第二部分是微軟最近將互動性帶入文檔生成應用程序的成果,是與微軟雷德蒙研究院的 Michelle Galley、麻省理工學院的 Felix 和華盛頓大學的 Zeqiu 合作研究的成果。
        在 M365 Copilot V1 的開發初期,我們就有一個想法,即讓用戶參與到文檔寫作的不同階段。我們也通過客戶的反饋了解到,大多數受用戶喜愛的功能都提供了可定制的輸出給用戶。然而其中一些功能顯然是非常困難的,例如沒有提供任何細節的情況下卻要求 AI 寫一份年度報告。因此,我們希望從用戶那里得到一些提示去獲得正確的方向。 舉例而言,通過「user-in-the-loop」的解決方案,我們可以將一個文本生成任務進行有效拆解,比如把寫一份年度報告的任務拆解成自然寫作過程中的固有步驟。一氣呵成地運用所給的提示完成任務會生成無數看似合理的答案,而使用大綱一步一步地做就簡單多了。這減少了用戶由于不斷點擊「重試」而產生的挫折感,就像目前 OpenAI 的用戶界面那樣。另外一大好處是減少了用戶的認知負荷,因為讓用戶看重新生成的冗長文本會讓人很頭疼。

        圖片

        「user-in-the-loop」的解決方案
        GPT-X 并不是解決方案
        現在,通過對話來創作一個文本可能看起來很難,但增加交互性將會使得任務更容易實施。正如之前在演講中所看到的,一次性文本生成具有幻覺問題、自洽性問題和離題傾向,這是非常大的一個挑戰。
        如果不選擇等待 GPT-5、6、7 來解決這個問題,我們應該如何創造一個穩健性好的應用程序呢?
        我們相信:從信息論的角度來看,輸入是稀疏的,輸出是詳細的。這說明了 GPT-X 本身并不是解決方案。因為許多困難的內容生成任務,實際上是輸出是有無數種組合的可能性的,例如依靠一個簡短的 prompt 來創作整段文本。

        圖片


        因此,我們的解決方案是利用一個用于內容創作的任務導向型對話系統。
        逐步解決交互體驗難題
        我們發表了三篇論文,分別解決了交互體驗的三個關鍵問題:基于命令的編輯模型、模擬用戶編輯命令和文本草稿的自動生成。

        圖片


        我們的第一篇論文《Text Editing by Command》,展示了草稿和完善模型。
        我們使用一個歷史上的 Wiki 詞條作為最終版本的草稿,提取所有的中間修改歷史和命令。從這些日志中,我們扣除了編輯命令,這就形成了一個修訂和其匹配命令的軌跡。在實際運用中,我們進一步將其擴展到更大的數據集,并納入了長文本生成和全局編輯命令。

        圖片


        該任務定義如下:從 Bing 那里獲得草稿、命令和檢索事實,以生成一個更新版草稿的輸出。

        圖片


        我們的數據結果顯示:該方法非常有效。在我們發布成果之前,從來沒有這樣的系統,所以這是一項新的任務。我們的評估研究表明,為了獲得最佳的文本質量,需要結合所有的輸入,包括事實、命令和草稿文本。

        圖片


        在第二篇名為 《Interactive Document Generation》的論文中,我們使用模仿學習來訓練一個用戶模擬器,該模擬器提供編輯命令來引導模型輸出一個給定的目標文本。這使我們能夠訓練生成模型,而不需要產生牽及真實用戶的成本。在生產環境中,收集真實用戶的反饋可能成本過高。用戶在生產環境中是發出修改命令的 Oracle。

        圖片


        在這項工作中,我們設計了一個可以訪問目標文本且可以為離線迭代文檔生成系統合成命令的機器 Oracle。我們把這個任務制定為模仿學習,從構思一個目標文件開始,目標是構建一個對話軌跡,其中的動作空間是所有的文件編輯點,狀態空間編碼了當前的草稿和用戶編輯的特殊類型詞。我們使用標準的模仿學習方法策略來訓練智能體的策略。

        圖片


        實驗發現,在給定相同的用戶輸入或編輯預算的情況下,交互式訓練模型優于非交互式訓練模型。我們將其量化為給定相同的 M 個用戶輸入詞,這樣就直接評估了模型的生產效用。用戶根據他們投入的努力程度和得到的輸出質量的差異來判斷這一模型的效用。
        我們所做的是非交互式的一氣呵成和其交互式版本之間的比較。一氣呵成的版本在前期接受了 M 個信息量最大的輸入詞,而交互式版本在延遲結束的幾輪中收到了這 M 個詞。數據結果表示,我們的交互式方法比非交互式方法有明顯的改進。

        圖片

         在第三篇論文中,我們提出了一項新的任務,將重復性的文本草擬工作自動化,例如寫年報、寫周報、應用模板等事情。這項工作的動機很簡單,在現實生活中,內容創作任務有時不斷重復,會讓人很傷腦筋,這包括很多模板化的解決方案。而我們的目標是設計能夠融合相關來源的內容的模型。

        圖片

         總結后半部分的演講,交互式文本生成獲取了人類和機器智能各自的優勢:人類擅長檢測語言中的微妙細節,并對重要信息進行事實核查;機器擅長自動化,在激發用戶方面具有創造性。

        圖片


        Human-in-the-loop 是未來高風險應用的關鍵,例如醫療和法律領域的相關應用。一個例子是:醫生在為病人進行了一天漫長的面診之后,在晚上還需要寫大量的病歷,這可能會導致醫務人員的職業倦怠。交互式文本生成將有助于減少因創建和更新醫療記錄而產生的負擔,并且仍能保證文本輸出的高精確度。 總結
        大語言模型應用的快速迭代需要大量的自動化和定性指標的投入。交互式文本生成通過將寫作過程模式化為對話的方式,讓用戶控制文本生成結果。通過讓用戶參與到模型的文本生成過程中,模型的準確性、實用性和安全性都會有所提高,這是將 LLM 應用引入到未來高風險領域的關鍵。
        非常感謝您的傾聽,如果您有任何后續問題,請不要猶豫,給我發電子郵件,謝謝。


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 郯城县| 雅安市| 呼图壁县| 贺州市| 陇西县| 乃东县| 固阳县| 大邑县| 温泉县| 通榆县| 防城港市| 平远县| 碌曲县| 招远市| 北宁市| 双鸭山市| 梅河口市| 普格县| 临武县| 福州市| 炎陵县| 丹江口市| 成武县| 葫芦岛市| 五台县| 绵竹市| 象山县| 临潭县| 海丰县| 康保县| 南丹县| 固安县| 泰兴市| 梨树县| 舞钢市| 彰化县| 宝山区| 郧西县| 马龙县| 定远县| 武汉市|