復(fù)旦大學(xué)教授肖仰華:ChatGPT 浪潮下,面向大模型如何做數(shù)據(jù)治理?(1)
由 ChatGPT 引起的大模型熱潮正席卷當(dāng)下。眾所周知,大模型的建立離不開海量數(shù)據(jù),且大模型的最終效果取決于數(shù)據(jù)的質(zhì)量,數(shù)據(jù)越豐富、質(zhì)量越高,大模型表現(xiàn)效果越好。那么該如何針對大模型做數(shù)據(jù)的治理?
2月26日,由CSDN、《新程序員》、上海市人工智能行業(yè)協(xié)會(huì)主辦,百度飛槳、達(dá)觀數(shù)據(jù)、智源人工智能研究院協(xié)辦的全球人工智能開發(fā)者先鋒大會(huì)(GAIDC)“新程序員:人工智能新十年”論壇,復(fù)旦大學(xué)教授肖仰華以“面向大模型的數(shù)據(jù)治理”為主題,分享前瞻洞察與思考。肖仰華以下為肖仰華演講內(nèi)容,CSDN在不改變原意的基礎(chǔ)上進(jìn)行編輯:語言模型成為人工智能發(fā)展新底座,預(yù)訓(xùn)練的語言模型極大推動(dòng)了自然語言處理(NLP)技術(shù)發(fā)展,成為語言智能的新范式、認(rèn)知智能新底座。然而,大模型仍存在諸多問題:如隱私泄露,訓(xùn)練大型語言模型的數(shù)據(jù)集通常很大,并且數(shù)據(jù)源較豐富,它們可能涉及名稱、電話號(hào)碼、地址等敏感個(gè)人數(shù)據(jù),即使以公開數(shù)據(jù)訓(xùn)練也是如此,這可能導(dǎo)致語言模型輸出里涵蓋某些隱私細(xì)節(jié)。還可能會(huì)出現(xiàn)事實(shí)錯(cuò)誤、邏輯錯(cuò)誤等問題。肖仰華表示,大模型要發(fā)揮價(jià)值,需要構(gòu)建從數(shù)據(jù)產(chǎn)生、數(shù)據(jù)整理、模型訓(xùn)練、模型適配到實(shí)際部署的完整生態(tài)系統(tǒng)。大模型的數(shù)據(jù)治理是保障大模型質(zhì)量的關(guān)鍵步驟,是當(dāng)前國內(nèi)在大模型研究方面極為稀缺的內(nèi)容,是突破國外巨頭對國內(nèi)技術(shù)封鎖的關(guān)鍵。基于此,面向大規(guī)模的數(shù)據(jù)治理研究,可從以下三層架構(gòu)來思考:最底層是基于大模型的知識(shí)質(zhì)量評估體系、人在環(huán)中的大模型訓(xùn)練優(yōu)化機(jī)制、復(fù)雜數(shù)據(jù)的預(yù)訓(xùn)練機(jī)制等基礎(chǔ)理論,往上為樣本糾偏、樣本優(yōu)化、多模融合、知識(shí)注入、事實(shí)編輯、領(lǐng)域適配、價(jià)值對齊、認(rèn)知提升等關(guān)鍵技術(shù),最上層是認(rèn)知增強(qiáng)和推理增強(qiáng),研究順序逐層推進(jìn)。
下面我們逐一分析具體的理論與技術(shù)。
基礎(chǔ)理論層
從上圖中觀察到,我們需重點(diǎn)建立大模型的知識(shí)質(zhì)量評估體系,突破人在環(huán)中的大模型訓(xùn)練優(yōu)化方法,探索序列、日志、圖等復(fù)雜數(shù)據(jù)的預(yù)訓(xùn)練機(jī)制,提升大模型在特定領(lǐng)域與任務(wù)中的質(zhì)量與性能。1、大模型的質(zhì)量評估體系。目前國內(nèi)的模型評估體系大部分關(guān)注語言層面,然而今天的大模型不單是語言智能的載體,在國外一些研究中,將大模型當(dāng)做具備初級(jí)認(rèn)知能力的智能體。因此在大模型質(zhì)量評估上,不能僅僅停留語言處理層面進(jìn)行評測,更多地,更為迫切是需要從人類認(rèn)知的角度借鑒思路建立大模型的完整的評測體系,比如從認(rèn)知發(fā)育理論借鑒理論指引,大模型是否具有可逆思維、創(chuàng)造思維、抽象思維、數(shù)值思維等能力,大模型是否存在認(rèn)知偏見、是否存在認(rèn)知障礙。大模型的評測關(guān)系到我們是否有資格成為裁判員。我們不能滿足于只做運(yùn)動(dòng)員,我們更要成為裁判員,才能掌握大模型研究與應(yīng)用的主動(dòng)權(quán)。2、人在環(huán)中的大模型訓(xùn)練優(yōu)化機(jī)制如今 ChatGPT 成功的重要原因是把對人類的反饋,通過強(qiáng)化學(xué)習(xí)的方式注入到大模型中。在ChatGPT中,人主要在以下兩個(gè)方面發(fā)揮作用:一是利用人類的標(biāo)注數(shù)據(jù)對GPT進(jìn)行有監(jiān)督訓(xùn)練,二是收集多個(gè)不同的監(jiān)督模型(SFT)輸出,由人類對這些輸出進(jìn)行排序并用來訓(xùn)練獎(jiǎng)賞模型。那么這里面的基于排序的反饋是不是最佳的方式?有否更好的人類反饋方式?另外,如何讓人以廉價(jià)成本實(shí)現(xiàn)高效大模型反饋?這里面仍有大量的問題需要研究和優(yōu)化。3、復(fù)雜數(shù)據(jù)的預(yù)訓(xùn)練機(jī)制。針對代碼、基因、圖等復(fù)雜形態(tài)的數(shù)據(jù),如何實(shí)現(xiàn)不同形態(tài)復(fù)雜數(shù)據(jù)的高效預(yù)訓(xùn)練?這里面存在大量的機(jī)會(huì)。關(guān)鍵技術(shù)詳解
在研究面向大規(guī)模預(yù)訓(xùn)練模型的數(shù)據(jù)治理理論與認(rèn)知增強(qiáng)時(shí),涉及樣本糾偏、樣本優(yōu)化、多模融合、知識(shí)注入、事實(shí)編輯、領(lǐng)域適配、價(jià)值對齊、認(rèn)知提升等關(guān)鍵技術(shù)。大模型的領(lǐng)域適配肖仰華表示,在 ChatGPT 賽道上,國內(nèi)比國外發(fā)展稍晚。那么在通用大模型上,如何有機(jī)會(huì)實(shí)現(xiàn)彎道超車?我們不能被人牽著鼻子走,需要開辟大模型研究與應(yīng)用的新賽道,在領(lǐng)域賽道形成核心競爭力。大模型有非常寬的知識(shí)底座,但是垂直領(lǐng)域的知識(shí)密集度以及推理復(fù)雜程度遠(yuǎn)遠(yuǎn)跟不上理論專家的要求和需求,因此我們不但需要有寬度的大模型,還需要有深度的大模型,來匹配領(lǐng)域需求。大模型樣本糾偏大模型樣本糾偏是大家最早意識(shí)到的問題,大模型的效果與“喂”進(jìn)去的數(shù)據(jù)息息相關(guān)。如果喂進(jìn)有偏差的數(shù)據(jù)機(jī)器就學(xué)到有偏差的知識(shí),因此我們需要糾正樣本偏置,訓(xùn)練公平的大模型。大模型的多模融合大模型的異質(zhì)多模融合是大模型實(shí)現(xiàn)跨模態(tài)理解的關(guān)鍵。目前很多大公司在做多模融合,但肖仰華建議“融合”不應(yīng)局限在圖片、語音、視頻等,例如在工業(yè)場景,還涉及日志、傳感器數(shù)據(jù)、圖表等數(shù)據(jù)的融合。大模型的事實(shí)編輯大模型本質(zhì)上是統(tǒng)計(jì)模型,對于特定事實(shí)或信念的可控編輯存在巨大挑戰(zhàn)。需要讓大模型遺忘、記住特定事實(shí),這是需要攻克的研究點(diǎn)。大模型的知識(shí)注入大模型缺乏人類的知識(shí),特別是專業(yè)知識(shí)。如何將人類的各類認(rèn)知,比如領(lǐng)域知識(shí)、概念層級(jí)、價(jià)值觀念注入到大模型?肖仰華表示,做好大模型的特定可控編輯、大模型的知識(shí)注入,是大模型往領(lǐng)域推廣和應(yīng)用重要的問題。那么數(shù)學(xué)、物理、醫(yī)療、司法等知識(shí)如何植入進(jìn)去?以往知識(shí)圖譜構(gòu)建大量的知識(shí)庫,是大模型在領(lǐng)域落地重要的助力工具。大模型的持續(xù)更新現(xiàn)有模型多是基于一次性的構(gòu)建過程,缺乏持續(xù)性知識(shí)獲取能力,如缺失大量新興實(shí)體(如新型冠狀肺炎),充斥過時(shí)知識(shí)等。另外,認(rèn)知智能系統(tǒng)需要持續(xù)知識(shí)更新能力以應(yīng)對現(xiàn)代的知識(shí)爆炸性增長,當(dāng)前的大模型訓(xùn)練代價(jià)太大,更新成本巨大、效率低下。針對大模型的持續(xù)更新,還需要大家做很多工作。大模型的樣本優(yōu)化大模型訓(xùn)練的數(shù)據(jù)良莠不齊,需要進(jìn)行精心的樣本選擇、樣本轉(zhuǎn)換、樣本清洗、提示注入,才能訓(xùn)練得到高質(zhì)量大模型。肖仰華表示,還可以通過對大模型的異質(zhì)來源數(shù)據(jù)進(jìn)行來源提示的增強(qiáng),來顯著提升大模型的質(zhì)量。大模型的價(jià)值對齊肖仰華強(qiáng)調(diào)我們需重視大模型的價(jià)值對齊。目前現(xiàn)有大模型主要通過國外專家反饋訓(xùn)練,其價(jià)值觀與國內(nèi)有很大不同,通過對人類反饋的強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)大模型與人類價(jià)值的對齊,例如可通過構(gòu)建匹配中式價(jià)值觀的反饋訓(xùn)練樣本,通過強(qiáng)化學(xué)習(xí)引導(dǎo)大模型生成符合倫理與價(jià)值觀的回復(fù)。大模型通過感知與融合人類的反饋能夠?qū)崿F(xiàn)價(jià)值認(rèn)知的對齊與增強(qiáng)。如在《Constitutional AI: Harmlessness from AI Feedback》提到,通過設(shè)定constitution,利用RLAIF(RL AI Feedback)&RLHF,CoT等方法讓大模型不逃避回答有爭議問題,輸出無害回答及解釋。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。