博客專欄

        EEPW首頁 > 博客 > 更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(2)

        更強的Llama 2開源,可直接商用:一夜之間,大模型格局變了(2)

        發(fā)布人:機器之心 時間:2023-07-19 來源:工程師 發(fā)布文章

        微調(diào)


        Llama 2-Chat 是數(shù)個月研究和迭代應(yīng)用對齊技術(shù)(包括指令調(diào)整和 RLHF)的成果,需要大量的計算和注釋資源。


        監(jiān)督微調(diào) (SFT)


        第三方監(jiān)督微調(diào)數(shù)據(jù)可從許多不同來源獲得,但 Meta 發(fā)現(xiàn)其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠高,尤其是在使 LLM 與對話式指令保持一致方面。因此,他們首先重點收集了幾千個高質(zhì)量 SFT 數(shù)據(jù)示例,如下表 5 所示。


        圖片


        在微調(diào)過程中,每個樣本都包括一個提示和一個回答。為確保模型序列長度得到正確填充,Meta 將訓(xùn)練集中的所有提示和答案連接起來。他們使用一個特殊的 token 來分隔提示和答案片段,利用自回歸目標,將來自用戶提示的 token 損失歸零,因此只對答案 token 進行反向傳播。最后對模型進行了 2 次微調(diào)。


        RLHF


        RLHF 是一種模型訓(xùn)練程序,適用于經(jīng)過微調(diào)的語言模型,以進一步使模型行為與人類偏好和指令遵循相一致。Meta 收集了代表了人類偏好經(jīng)驗采樣的數(shù)據(jù),人類注釋者可據(jù)此選擇他們更喜歡的兩種模型輸出。這種人類反饋隨后被用于訓(xùn)練獎勵模型,該模型可學(xué)習人類注釋者的偏好模式,然后自動做出偏好決定。


        下表 6 報告了 Meta 長期以來收集到的獎勵建模數(shù)據(jù)的統(tǒng)計結(jié)果,并將其與多個開源偏好數(shù)據(jù)集進行了對比。他們收集了超過 100 萬個基于人類應(yīng)用指定準則的二元比較的大型數(shù)據(jù)集,也就是元獎賞建模數(shù)據(jù)。


        請注意,提示和答案中的標記數(shù)因文本領(lǐng)域而異。摘要和在線論壇數(shù)據(jù)的提示通常較長,而對話式的提示通常較短。與現(xiàn)有的開源數(shù)據(jù)集相比,本文的偏好數(shù)據(jù)具有更多的對話回合,平均長度也更長。


        圖片


        獎勵模型將模型響應(yīng)及其相應(yīng)的提示(包括前一輪的上下文)作為輸入,并輸出一個標量分數(shù)來表示模型生成的質(zhì)量(例如有用性和安全性)。利用這種作為獎勵的響應(yīng)得分,Meta 在 RLHF 期間優(yōu)化了 Llama 2-Chat,以更好地與人類偏好保持一致,并提高有用性和安全性。


        在每一批用于獎勵建模的人類偏好注釋中,Meta 都拿出 1000 個樣本作為測試集來評估模型,并將相應(yīng)測試集的所有提示的集合分別稱為「元有用性」和「元安全性」。


        下表 7 中報告了準確率結(jié)果。不出所料,Meta 自己的獎勵模型在基于 Llama 2-Chat 收集的內(nèi)部測試集上表現(xiàn)最佳,其中「有用性」獎勵模型在「元有用性」測試集上表現(xiàn)最佳,同樣,「安全性」獎勵模型在「元安全性」測試集上表現(xiàn)最佳。


        總體而言,Meta 的獎勵模型優(yōu)于包括 GPT-4 在內(nèi)的所有基線模型。有趣的是,盡管 GPT-4 沒有經(jīng)過直接訓(xùn)練,也沒有專門針對這一獎勵建模任務(wù),但它的表現(xiàn)卻優(yōu)于其他非元獎勵模型。


        圖片


        縮放趨勢。Meta 研究了獎勵模型在數(shù)據(jù)和模型大小方面的縮放趨勢,在每周收集的獎勵模型數(shù)據(jù)量不斷增加的情況下,對不同的模型大小進行了微調(diào)。下圖 6 報告了這些趨勢,顯示了預(yù)期的結(jié)果,即在類似的數(shù)據(jù)量下,更大的模型能獲得更高的性能。


        圖片


        隨著收到更多批次的人類偏好數(shù)據(jù)注釋,能夠訓(xùn)練出更好的獎勵模型并收集更多的提示。因此,Meta 訓(xùn)練了連續(xù)版本的 RLHF 模型,在此稱為 RLHF-V1、...... , RLHF-V5。


        此處使用兩種主要算法對 RLHF 進行了微調(diào):


        • 近端策略優(yōu)化 (PPO);

        • Rejection 采樣微調(diào)。


        RLHF 結(jié)果


        首先是基于模型的評估結(jié)果。下圖 11 報告了不同 SFT 和 RLHF 版本在安全性和有用性方面的進展,其中通過 Meta 內(nèi)部的安全性和有用性獎勵模型進行評估。


        圖片


        再來看人類評估結(jié)果。如下圖 12 所示,Llama 2-Chat 模型在單輪和多輪提示方面均顯著優(yōu)于開源模型。特別地,Llama 2-Chat 7B 在 60% 的提示上優(yōu)于 MPT-7B-chat,Llama 2-Chat 34B 相對于同等大小的 Vicuna-33B 和 Falcon 40B,表現(xiàn)出了 75% 以上的整體勝率。


        圖片


        在這里,Meta 也指出了人工評估的一些局限性。


        雖然結(jié)果表明 Llama 2-Chat 在人工評估方面與 ChatGPT 不相上下,但必須指出的是,人工評估存在一些局限性。


        • 按照學(xué)術(shù)和研究標準,本文擁有一個 4k 提示的大型提示集。但是,這并不包括這些模型在現(xiàn)實世界中的使用情況,而現(xiàn)實世界中的使用情況可能要多得多。

        • 提示語的多樣性可能是影響結(jié)果的另一個因素,例如本文提示集不包括任何編碼或推理相關(guān)的提示。

        • 本文只評估了多輪對話的最終生成。更有趣的評估方法可能是要求模型完成一項任務(wù),并對模型在多輪對話中的整體體驗進行評分。

        • 人類對生成模型的評估本身就具有主觀性和噪聲性。因此,使用不同的提示集或不同的指令進行評估可能會產(chǎn)生不同的結(jié)果。


        安全性


        該研究使用三個常用基準評估了 Llama 2 的安全性,針對三個關(guān)鍵維度:


        • 真實性,指語言模型是否會產(chǎn)生錯誤信息,采用 TruthfulQA 基準;

        • 毒性,指語言模型是否會產(chǎn)生「有毒」、粗魯、有害的內(nèi)容,采用 ToxiGen 基準;

        • 偏見,指語言模型是否會產(chǎn)生存在偏見的內(nèi)容,采用 BOLD 基準。


        預(yù)訓(xùn)練的安全性


        首先,預(yù)訓(xùn)練數(shù)據(jù)對模型來說非常重要。Meta 進行實驗評估了預(yù)訓(xùn)練數(shù)據(jù)的安全性。


        該研究使用在 ToxiGen 數(shù)據(jù)集上微調(diào)的 HateBERT 分類器來測量預(yù)訓(xùn)練語料庫英文數(shù)據(jù)的「毒性」,具體結(jié)果如下圖 13 所示:


        圖片


        為了分析偏見方面的問題,該研究統(tǒng)計分析了預(yù)訓(xùn)練語料庫中的代詞和身份相關(guān)術(shù)語及其占比,如下表 9 所示:


        圖片


        此外,在語言分布方面,Llama 2 語料庫涵蓋的語種及其占比如下表 10 所示:


        圖片


        安全微調(diào)


        具體來說,Meta 在安全微調(diào)中使用了以下技術(shù):1、監(jiān)督安全微調(diào);2、安全 RLHF;3、安全上下文蒸餾


        Meta 在 Llama 2-Chat 的開發(fā)初期就觀察到,它能夠在有監(jiān)督的微調(diào)過程中從安全演示中有所總結(jié)。模型很快就學(xué)會了撰寫詳細的安全回復(fù)、解決安全問題、解釋話題可能敏感的原因并提供更多有用信息。特別是,當模型輸出安全回復(fù)時,它們往往比普通注釋者寫得更詳細。因此,在只收集了幾千個有監(jiān)督的示范后,Meta 就完全改用 RLHF 來教模型如何寫出更細致入微的回復(fù)。使用 RLHF 進行全面調(diào)整的另一個好處是,它可以使模型對越獄嘗試更加魯棒。


        圖片


        Meta 首先通過收集人類對安全性的偏好數(shù)據(jù)來進行 RLHF,其中注釋者編寫他們認為會引發(fā)不安全行為的 prompt,然后將多個模型響應(yīng)與 prompt 進行比較,并根據(jù)一系列指南選擇最安全的響應(yīng)。接著使用人類偏好數(shù)據(jù)來訓(xùn)練安全獎勵模型,并在 RLHF 階段重用對抗性 prompt 以從模型中進行采樣。


        如下圖 15 所示,Meta 使用平均獎勵模型得分作為模型在安全性和有用性方面的表現(xiàn)結(jié)果。Meta 觀察到,當他們增加安全數(shù)據(jù)的比例時,模型處理風險和對抗性 prompt 的性能顯著提高。


        圖片


        最后,Meta 通過上下文蒸餾完善了 RLHF 流程。這涉及到通過在 prompt 前加上安全前置 prompt 來生成更安全的模型響應(yīng),例如「你是一個安全且負責任的助手」,然后在沒有前置 prompt 的情況下根據(jù)更安全的響應(yīng)微調(diào)模型,這本質(zhì)上是提取了安全前置 prompt(上下文)進入模型。


        Meta 使用了有針對性的方法,允許安全獎勵模型選擇是否對每個樣本使用上下文蒸餾。


        圖片


        下圖 17 展示了各種 LLM 的總體違規(guī)百分比和安全評級。


        圖片


        下圖 18 展示了單輪和多輪對話的違規(guī)百分比。跨模型的一個趨勢是,多輪對話更容易引發(fā)不安全的響應(yīng)。也就是說,與基線相比,Llama 2-Chat 仍然表現(xiàn)良好,尤其是在多輪對話中。


        圖片


        下圖 19 顯示了不同 LLM 在不同類別中安全違規(guī)百分比。


        圖片


        圖片


        參考鏈接:https://ai.meta.com/llama/


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 淳化县| 上犹县| 呼图壁县| 新津县| 林西县| 丹东市| 台南市| 绥芬河市| 南涧| 保靖县| 木兰县| 油尖旺区| 南京市| 潢川县| 美姑县| 明光市| 宜宾市| 横峰县| 肥西县| 祁东县| 衡山县| 蓝山县| 惠州市| 大新县| 临朐县| 分宜县| 绥中县| 澳门| 惠来县| 凌海市| 太谷县| 彰化县| 定陶县| 石台县| 敦化市| 咸阳市| 思南县| 达拉特旗| 洪江市| 建水县| 新野县|