比 GPT-3 更擅長理解用戶意圖,OpenAI發布 InstructGPT
作者 | 青蘋果
來源 | 數據實戰派
近日,OpenAI 發布了一項令人矚目的研究—— InstructGPT。
在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓練出更真實、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT。論文題為 Training language models to follow instructions with human feedback。
以往,GPT-3 也很可能產生不真實、有害或反映不良情緒的輸出。這在一定程度上是因為,在互聯網文本的大數據集上,訓練 GPT-3 來完成下一個單詞的預測,并非是安全地執行用戶想要的語言任務。換句話說,這些模型與其用戶可能實際上并不一致。
為了讓模型更安全、更有用、更一致,OpenAI 使用了一種稱為從人類反饋中強化學習(RLHF,Reinforcement Learning from Human Feedback)的現有技術。根據客戶向 API 提交的反饋,OpenAI 對模型的多個輸出進行排序。然后,OpenAI 使用這些數據來微調 GPT-3。
由此產生的 InstructGPT 模型,在遵循指令方面,遠比 GPT-3 要好得多。而且,它們也較少的憑空捏造事實,有害輸出的產生呈現小幅下降趨勢。InsructGPT 的參數量為 1.3 B。
InstructGPT 模型,已經在 API 上進行了一年多的測試,現已成為 API 上可訪問的默認語言模型。OpenAI 相信,用 RLHF 的解決方案來微調語言模型是提高安全性和可靠性的強大工具。
這也是團隊多年來首次將對齊研究應用到產品上。
實驗結果
OpenAI 將 InstructGPT 的輸出與 GPT-3 的輸出進行比較,以評估InstructGPT 的輸出是否很好地遵循了用戶指令。
結果發現,在 API 上,對于提交給 InstructGPT 和 GPT-3 模型的提示,InstructGPT 模型明顯更受歡迎。當 OpenAI 為 GPT-3 提示符添加一個前綴,使其進入“指令跟隨模式”時,這一點是成立的。
為了衡量模型的安全性,OpenAI 主要在公開可用的數據集上使用了一套現有的度量指標。
與 GPT-3 相比,InstructGPT 產生的模仿性謊言更少,危害更小。OpenAI 還對 API 提示分布展開了人工評估,結果顯示,InstructGPT 捏造事實(“幻覺”)的頻率更低,而且還能生成更恰當的輸出。
最后,OpenAI 發現在客戶分布上,InstructGPT 的輸出要優于那些來自 FLAN 和 T0 的輸出。這表明用于訓練 FLAN 模型和 T0 模型的數據,主要是學術 NLP 任務,并不能完全代表部署的語言模型在實踐中的使用情況。
為了訓練 InstructGPT 模型,OpenAI 的核心技術是 RLHF,這是 OpenAI 在早期對齊研究中幫助開發的一種方法。該技術利用人類的偏好作為獎勵信號來微調模型,這一點很重要,因為 OpenAI 旨在解決的安全性和對齊問題是復雜且主觀的,并且無法被簡單的自動度量指標所捕獲。
OpenAI 首先在提交給 API 的提示上收集人工編寫的演示數據集,然后用它來訓練監督學習的基線。
接下來,在更大的 API 提示集上收集兩個模型輸出之間的人工標記的比較數據集。然后,在此數據集上訓練獎勵模型(RM,Reward Model),以預測 labelers 更偏愛哪一種輸出。最后,使用 RM 作為獎勵函數,并通過 PPO 算法微調 GPT-3 策略來最大化這個獎勵。
可以用以下方式來思考上述過程,它“解鎖”了 GPT-3 已經具備的功能,但很難僅通過提示工程(promptengineering)來實現:這是因為相對于預訓練學到的知識而言,OpenAI 的訓練程序在幫助模型 get 更多技能方面的確能力有限。相比于模型預訓練,它使用的計算和數據甚至不足 2%。
這種方法的局限性在于它引入了“對齊稅”(alignment tax):模型如果只對齊客戶任務,可能會使其在其他一些學術 NLP 任務上的性能表現更差。
顯然,這是不可取的,因為如果 OpenAI 的對齊技術使模型在人們關心的任務上變得更糟,那么,他們在實踐中被采用的可能性會有多小便可想而知。不過,OpenAI 發現了一種簡單的算法更改,可以最小化這種對齊稅:在 RL 微調期間,OpenAI 混合了一小部分用于訓練 GPT-3 的原始數據,并使用正常的對數似然最大化訓練這些數據。
這大致維持了安全性和人類偏好的表現,同時還降低了學術任務的性能表現,在某些情況下甚至超過了 GPT-3 的基線。
推廣到更廣泛的偏好
OpenAI 使模型的行為與 labelers 的偏好相一致,labelers 直接產生用于訓練模型的數據,而研究人員則通過書面指示、對具體例子的直接反饋和非正式對話為 labelers 提供指導。
此外,模型還受到客戶和 API 政策中隱含偏好的影響。
OpenAI 選擇了在篩選測試中表現良好的 labelers,既可以識別敏感提示,又可以對敏感提示迅速做出響應。然而,這些對數據產生影響的不同來源并不能保證,模型會與任何更廣泛群體的偏好相一致。
OpenAI 開展了兩個實驗來研究這個問題。
首先,使用未產生任何訓練數據的保留 labelers 來評估 GPT-3 和 InstructGPT 模型,并發現這些 labelers 更喜歡 InstructGPT 模型的輸出。
其次,用來自子集的數據訓練獎勵模型,并發現它們可以很好進行推廣,以預測不同 labelers 子集的偏好。這也就表明,模型并非只完全適合于 OpenAI 的訓練 labelers 的偏好。
然而,還需要更多的工作來研究這些模型如何在更廣泛的用戶群體中執行,以及他們如何在人們對預期行為有異議的輸入中執行。
局限性
盡管該研究取得了重大進展,但 InstructGPT 模型距離完全對齊或完全安全仍任重而道遠;他們仍然會產生有害或有偏見的結果/捏造事實,并在沒有明確提示的情況下產生性和暴力的相關內容。但機器學習系統的安全性不僅取決于底層模型的行為,還取決于這些模型的部署方式。
為了支持 API 的安全性,OpenAI 將在潛在的 App 上線之前繼續審核,提供內容過濾器來檢測安全性,并監視濫用情況。
訓練模型遵循用戶指令的副產品是,如果指示它們產生不安全的輸出,它們可能更容易被濫用。解決這個問題就需要模型學會拒絕,視情況篩選指令;顯然,幫助模型可靠的完成這一點,是 OpenAI 非常樂意解決的一個重要的開放研究問題。
此外,也有很多情況,可能并不希望與平均 labelers 偏好保持一致。例如,當生成不成比例地影響少數群體的文本時,該群體的偏好應該得到更大的權重。
現在,InstructGPT 接受的訓練是遵循英文指令;因此,它偏向于以英語為母語的群體的文化價值觀。
當然,OpenAI 正在進行研究,以了解 labelers 偏好之間的差異和分歧,以便于根據更具體的人群的價值觀來具體設置模型。
總而言之,這是 OpenAI 首次將對齊研究應用到產品上。這些技術可以顯著有效地改善通用 AI 系統與人類意圖的一致性。這也只是一個開始,OpenAI 表示,將繼續推動這些技術,以進一步改進當前和未來的模型,使之朝著對人類安全且有益的語言工具的方向發展。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。