博客專欄

        EEPW首頁 > 博客 > 比 GPT-3 更擅長理解用戶意圖,OpenAI發布 InstructGPT

        比 GPT-3 更擅長理解用戶意圖,OpenAI發布 InstructGPT

        發布人:AI科技大本營 時間:2022-02-12 來源:工程師 發布文章

        作者 | 青蘋果

        來源 | 數據實戰派

        近日,OpenAI 發布了一項令人矚目的研究—— InstructGPT。

        在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓練出更真實、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT。論文題為 Training language models to follow instructions with human feedback。                           

        微信圖片_20220212153520.png

        以往,GPT-3 也很可能產生不真實、有害或反映不良情緒的輸出。這在一定程度上是因為,在互聯網文本的大數據集上,訓練 GPT-3 來完成下一個單詞的預測,并非是安全地執行用戶想要的語言任務。換句話說,這些模型與其用戶可能實際上并不一致。

        為了讓模型更安全、更有用、更一致,OpenAI 使用了一種稱為從人類反饋中強化學習(RLHF,Reinforcement Learning from Human Feedback)的現有技術。根據客戶向 API 提交的反饋,OpenAI 對模型的多個輸出進行排序。然后,OpenAI 使用這些數據來微調 GPT-3。

        由此產生的 InstructGPT 模型,在遵循指令方面,遠比 GPT-3 要好得多。而且,它們也較少的憑空捏造事實,有害輸出的產生呈現小幅下降趨勢。InsructGPT 的參數量為 1.3 B。

        InstructGPT 模型,已經在 API 上進行了一年多的測試,現已成為 API 上可訪問的默認語言模型。OpenAI 相信,用 RLHF 的解決方案來微調語言模型是提高安全性和可靠性的強大工具。

        這也是團隊多年來首次將對齊研究應用到產品上。

        實驗結果

        OpenAI 將 InstructGPT 的輸出與 GPT-3 的輸出進行比較,以評估InstructGPT 的輸出是否很好地遵循了用戶指令。

        結果發現,在 API 上,對于提交給 InstructGPT 和 GPT-3 模型的提示,InstructGPT 模型明顯更受歡迎。當 OpenAI 為 GPT-3 提示符添加一個前綴,使其進入“指令跟隨模式”時,這一點是成立的。

        為了衡量模型的安全性,OpenAI 主要在公開可用的數據集上使用了一套現有的度量指標。

        與 GPT-3 相比,InstructGPT 產生的模仿性謊言更少,危害更小。OpenAI 還對 API 提示分布展開了人工評估,結果顯示,InstructGPT 捏造事實(“幻覺”)的頻率更低,而且還能生成更恰當的輸出。

        最后,OpenAI 發現在客戶分布上,InstructGPT 的輸出要優于那些來自 FLAN 和 T0 的輸出。這表明用于訓練 FLAN 模型和 T0 模型的數據,主要是學術 NLP 任務,并不能完全代表部署的語言模型在實踐中的使用情況。

        為了訓練 InstructGPT 模型,OpenAI 的核心技術是 RLHF,這是 OpenAI 在早期對齊研究中幫助開發的一種方法。該技術利用人類的偏好作為獎勵信號來微調模型,這一點很重要,因為 OpenAI 旨在解決的安全性和對齊問題是復雜且主觀的,并且無法被簡單的自動度量指標所捕獲。

        OpenAI 首先在提交給 API 的提示上收集人工編寫的演示數據集,然后用它來訓練監督學習的基線。

        接下來,在更大的 API 提示集上收集兩個模型輸出之間的人工標記的比較數據集。然后,在此數據集上訓練獎勵模型(RM,Reward Model),以預測 labelers 更偏愛哪一種輸出。最后,使用 RM 作為獎勵函數,并通過 PPO 算法微調 GPT-3 策略來最大化這個獎勵。

        可以用以下方式來思考上述過程,它“解鎖”了 GPT-3 已經具備的功能,但很難僅通過提示工程(promptengineering)來實現:這是因為相對于預訓練學到的知識而言,OpenAI 的訓練程序在幫助模型 get 更多技能方面的確能力有限。相比于模型預訓練,它使用的計算和數據甚至不足 2%。

        這種方法的局限性在于它引入了“對齊稅”(alignment tax):模型如果只對齊客戶任務,可能會使其在其他一些學術 NLP 任務上的性能表現更差。

        顯然,這是不可取的,因為如果 OpenAI 的對齊技術使模型在人們關心的任務上變得更糟,那么,他們在實踐中被采用的可能性會有多小便可想而知。不過,OpenAI 發現了一種簡單的算法更改,可以最小化這種對齊稅:在 RL 微調期間,OpenAI 混合了一小部分用于訓練 GPT-3 的原始數據,并使用正常的對數似然最大化訓練這些數據。

        這大致維持了安全性和人類偏好的表現,同時還降低了學術任務的性能表現,在某些情況下甚至超過了 GPT-3 的基線。

        微信圖片_20220212153521.png

        推廣到更廣泛的偏好

        OpenAI 使模型的行為與 labelers 的偏好相一致,labelers 直接產生用于訓練模型的數據,而研究人員則通過書面指示、對具體例子的直接反饋和非正式對話為 labelers 提供指導。

        此外,模型還受到客戶和 API 政策中隱含偏好的影響。

        OpenAI 選擇了在篩選測試中表現良好的 labelers,既可以識別敏感提示,又可以對敏感提示迅速做出響應。然而,這些對數據產生影響的不同來源并不能保證,模型會與任何更廣泛群體的偏好相一致。

        微信圖片_20220212153523.png

        OpenAI 開展了兩個實驗來研究這個問題。

        首先,使用未產生任何訓練數據的保留 labelers 來評估 GPT-3 和 InstructGPT 模型,并發現這些 labelers 更喜歡 InstructGPT 模型的輸出。

        其次,用來自子集的數據訓練獎勵模型,并發現它們可以很好進行推廣,以預測不同 labelers 子集的偏好。這也就表明,模型并非只完全適合于 OpenAI 的訓練 labelers 的偏好。

        然而,還需要更多的工作來研究這些模型如何在更廣泛的用戶群體中執行,以及他們如何在人們對預期行為有異議的輸入中執行。

        局限性

        盡管該研究取得了重大進展,但 InstructGPT 模型距離完全對齊或完全安全仍任重而道遠;他們仍然會產生有害或有偏見的結果/捏造事實,并在沒有明確提示的情況下產生性和暴力的相關內容。但機器學習系統的安全性不僅取決于底層模型的行為,還取決于這些模型的部署方式。

        為了支持 API 的安全性,OpenAI 將在潛在的 App 上線之前繼續審核,提供內容過濾器來檢測安全性,并監視濫用情況。

        訓練模型遵循用戶指令的副產品是,如果指示它們產生不安全的輸出,它們可能更容易被濫用。解決這個問題就需要模型學會拒絕,視情況篩選指令;顯然,幫助模型可靠的完成這一點,是 OpenAI 非常樂意解決的一個重要的開放研究問題。

        此外,也有很多情況,可能并不希望與平均 labelers 偏好保持一致。例如,當生成不成比例地影響少數群體的文本時,該群體的偏好應該得到更大的權重。

        現在,InstructGPT 接受的訓練是遵循英文指令;因此,它偏向于以英語為母語的群體的文化價值觀。

        當然,OpenAI 正在進行研究,以了解 labelers 偏好之間的差異和分歧,以便于根據更具體的人群的價值觀來具體設置模型。

        總而言之,這是 OpenAI 首次將對齊研究應用到產品上。這些技術可以顯著有效地改善通用 AI 系統與人類意圖的一致性。這也只是一個開始,OpenAI 表示,將繼續推動這些技術,以進一步改進當前和未來的模型,使之朝著對人類安全且有益的語言工具的方向發展。

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 龙泉市| 龙口市| 格尔木市| 法库县| 石渠县| 金平| 申扎县| 丹江口市| 陕西省| 潮州市| 工布江达县| 务川| 榆树市| 集贤县| 东平县| 永胜县| 犍为县| 建德市| 英山县| 龙门县| 庆云县| 新疆| 黄骅市| 汉沽区| 沙田区| 平邑县| 衡水市| 京山县| 林周县| 东至县| 亚东县| 天祝| 抚州市| 久治县| 惠安县| 布拖县| 眉山市| 曲松县| 台江县| 深水埗区| 洛南县|