GPT-4 即將亮相?聊聊目前已知的一切
大數據文摘轉載自 AI 前線
作者:Alberto Romero
GPT-3 首度亮相于大約兩年之前的 2020 年 5 月,當時正值 GPT-2 發布的一年之后。而 GPT-2 距離最初 GPT 研究論文的發表也是相隔一年。如果這種周期性趨勢繼續保持不變,那 GPT-4 肯定也快跟大家見面了。但 OpenAI 公司 CEO Sam Altman 幾個月前已經打過預防針,表示 GPT-4 預計會在 2022 年年內推出,具體可能是在 7 月到 8 月左右。
雖然備受矚目,但 GPT-4 目前的公開消息確實相當有限:它會是什么樣子、帶來怎樣的特性或能力,一概不知。Altman 去年曾在一場問答中談到過 OpenAI 對于 GPT-4 項目的規劃,但同時也提醒與會者盡量保持冷靜、不要過度樂觀。如今七個月已經過去,咱們可以回頭看看他的發言了。Altman 首先確認,GPT-4 的參數量不會達到 100 萬億,畢竟規模真到那個程度、今年年內也就不用指望了。
OpenAI 很有一段時間沒聊過 GPT-4 的事了,但結合 AI 領域、特別是 NLP 領域獲得高度關注的熱門趨勢,我們倒是可以推斷一下 GPT-4 的開發思路。考慮到這些方法大獲成功、OpenAI 又都有參與其中,咱們可以從 Altman 的發言中整理出點線索。先說結論:我覺得 GPT-4 不會繼續走模型越來越大的老路。
下面來看關于 GPT-4 的具體預測。
模型大小:GPT-4 不會走越來越大的老路
GPT-4 不會在規模上刷新語言模型的新紀錄。Altman 提到 GPT-4 不會比 GPT-3 大多少。雖然跟前幾代神經網絡相比,GPT-4 肯定也不算小,但其發展思路應該有所改變。我猜 GPT-4 可能介于 GPT-3 和 Gopher(1750 億到 2800 億參數)之間。
這可不是亂說的,我有恰當的理由。
英偉達和微軟去年建立的 Megatron-Turing NLG 以 5300 億參數獲得了最大密集神經網絡的稱號,體量已經達到 GPT-3 的 3 倍。直到最近,谷歌的 PaLM 才以 5400 億參數將其擠下寶座。但值得注意的是,MT-NLG 之后相繼出現了一些體量較小、但性能水平更高的新模型。
時代變了,更大不再等于更好。
這些更小卻更好的模型,給我們帶來了兩個啟示。
首先,企業們意識到用做大模型的方式提高代理性能既不是唯一的方法、也不再是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事們就已經得出結論,當算力規模的增加主要用于根據冪律關系擴展參數數量時,性能提升效果最佳。谷歌、英偉達、微軟、OpenAI、DeepMind 等語言模型開發公司明顯走的都是這個路子。
然而,MT-NLG 的出現證明參數更多并不一定代表性能更好。事實上,它在任何單一基準測試類別中都拿不到最高分。反而是 Gopher(2800 億參數)或 Chinchilla(700 億參數)等相對較小的模型,在實際表現上遠超 MT-NLG。
這就帶來了第二點啟發。
企業開始對“越大越好”的僵化教條說不。事實證明,參數量的增加只是提高性能的多種因素之一。而由此帶來的負面影響(例如碳排放增加、計算成本膨脹、準入門檻過高)已經讓這種看似簡單的方法不再簡單。于是乎,各家企業只會在沒法通過較小模型獲得相似或更佳表現時,才考慮構建巨大模型。
Altman 表示,他們也決定由此轉型、探索怎樣讓更小的模型發揮更佳效能。OpenAI 的研究人員們曾經是“規模擴張”派的早期支持者,但現在他們可能也意識到還有其他模型改進路線值得探索。
正因為如此,GPT-4 才不會比 GPT-3 大很多。OpenAI 將把關注重點轉向其他方面——例如數據、算法、參數化或者對齊,這些反而更有希望帶來顯著改進。所以傳說中的 100 萬億參數模型恐怕暫時沒戲嘍。
優化:發掘 GPT-4 的全部潛能
語言模型優化一直是個惱人的問題。因為模型的訓練成本過高,企業不得不在準確性與成本之間做出權衡,這又往往導致模型優化程度不夠理想。
GPT-3 只訓練過一次,后續只會在特殊情況下針對錯誤進行重新訓練。OpenAI 決定不這么搞了,因為成本太過高昂、研究人員也沒辦法找到模型的最佳超參數集(例如學習率、批次大小、序列長度等)。
高訓練成本帶來的另一個后果,就是難以對模型行為開展分析。當初 Kaplan 團隊認定模型大小將成為性能提升的關鍵變量時,并沒有考慮到訓練 token 的數量——即模型輸入的數據量。這明顯需要消耗大量計算資源。
而科技巨頭們之所以走上 Kaplan 的這條道路,就是因為自己手里掌握著大量算力。諷刺的是,谷歌、微軟、Facebook 等大廠在這些碩大無比的模型身上“浪費”了數百萬美元,由此造成的污染更是難以估計,但最初的目的卻是為了省錢。
如今,以 DeepMind 和 OpenAI 為代表的企業開始探索其他方法,希望找到最佳、而非最大的模型。
最優參數化
上個月,微軟和 OpenAI 已經證明只要用最佳超參數訓練模型,GPT-3 還有進一步改進的空間。他們發現 GPT-3 的 67 億參數版本能夠借此實現性能飛躍,表現甚至不遜于最早 130 億參數的版本。由此可見,在大型模型中根本不可行的超參數調優其實前景光明,完全能夠實現相當于參數倍增的性能提升。
雙方還發現一種新的參數化方法 (μP),證明小模型中的最佳超參數在同家族的較大模型中同樣適用。μP 能夠以更低的訓練成本對任意大小的模型進行優化,之后以幾乎零成本方式將得出的超參數遷移至更大的模型當中。
最優計算模型
幾周之前,DeepMind 重新審查了 Kaplan 的發現,并意識到與人們的普遍認知相反,訓練 token 數量對于性能的影響基本等同于模型大小。他們由此得出結論,認為隨著算力資源的提升,最好是把這些資源平均分配給新增的參數和數據。他們還通過訓練 Chinchilla 來驗證這一假設——Chinchilla 是一個包含 700 億參數的模型(相當于 Gopher 的四分之一),但訓練用的數據量卻是自 GPT-3 以來所有大型語言模型的 4 倍(共使用 1.4 萬億個 token,遠超常規的 3000 億水平)。
結果令人欣喜。Chinchilla 在眾多語言基準測試中“穩定且顯著”優于 Gopher、GPT-3、MT-NLG 等因體量過大而無法充分訓練的其他語言模型。
考慮到 GPT-4 終歸還是要比 GPE-3 略大,所以讓它達到最優計算水平所需要的訓練 token 量應該在 5 萬億左右(根據 DeepMind 的發現),這要比當前數據集高出一個量級。而達成最小訓練損失所需要的算力總量則相當于 GPT-3 的約 10 至 20 倍(按 Gopher 的算力消耗來推斷)。
Altman 在問答中提到 GPT-4 占用的算力總量要超過 GPT-3,也許說的就是這個意思。
OpenAI 肯定會在 GPT-4 中充分發掘最優方案,但由于不知道他們劃定了多少資源預算,所以很難給出確切的推斷。不過可以肯定的是,OpenAI 一定會專注于優化除模型大小之外的其他變量。只要能找到最優超參數集、計算模型大小以及參數數量,那 GPT-4 完全有希望在全部基準測試中帶來超出想象的優異表現。如果它真能獲得這樣集萬千優勢于一身的形態,那么 GPT-4 就是毫無疑問的語言模型之王。
Altman 還提到,人們一直覺得更大的模型肯定就更好,言下之意可能是規模擴張的道路將由此終結。
多模態:GPT-4 將是一個純文本模型
深度學習的未來在于多模態模型。人類的大腦包含多種感官系統,為的正是適應現實中的多模世界。但只能支持一種模態、理解一種感知的 AI 模型,明顯無法在理解與分析能力方面再上一個臺階。
必須承認,良好的多模態模型要比純語言或純視覺模型更難構建。光是把視覺和文本信息組成成單一表示本身,就已經是項異常艱巨的任務。我們甚至不清楚人腦是怎么做到這一點的(當然,深度學習社區其實也沒有深入鉆研認知學意義上的大腦結構和功能分區),當然沒辦法在神經網絡中重現這種能力。
Altman 在問答中提到,GPT-4 不會是像 DALL·E 或者 LaMDA 那樣的多模態模型,而是一個純文本模型。我猜他們希望把語言模型推到極致,在轉向下一代多模態 AI 之前先搞定模型調優與數據集大小等問題。
稀疏性:GPT-4 將是個密集模型
稀疏模型采取的是有條件計算思路,即使用模型中的不同部分來處理不同類型的輸入。這種方法近期取得了巨大成功,相關模型甚至能夠輕松擴展到超萬億參數規模,卻又不會受到高計算成本的影響。這相當于是在模型大小和算力預算之間找到了理想的平衡點。然而,這種 MoE 方法的優勢在超大規模模型中往往會急劇減弱。
考慮到 OpenAI 多年來一直堅持探索密集語言模型,所以我們有理由相信未來的 GPT-4 也會是密集模型。Altman 還提到 GPT-4 不會比 GPT-3 大太多,所以我們認為 OpenAI 不會在 GPT-4 上走稀疏模型的道路——至少這次內不會。
但人腦其實就高度依賴于稀疏處理,所以跟多模態相似,稀疏模型也很可能在未來幾代神經網絡中成為主流。
對齊:GPT-4 對齊度將高于 GPT-3
OpenAI 在 AI 對齊問題上做出了諸多努力,其核心在于探索如何讓語言模型遵循人類的意圖、符合人類價值觀。這不只是個數學難題(即如何讓 AI 準確理解我們想要的結果),同時也屬于哲學挑戰(由于不同人類群體間的價值觀存在巨大差異、甚至相互矛盾,所以不可能存在一種能讓 AI 與人類永遠保持一致的通用方法)。
但 OpenAI 仍然勇敢做出了嘗試,最初的探索就是 InstructGPT。這是一個經過更新的 GPT-3 模型,能夠接收人工反饋以學會遵循指令(但暫不考慮這些指令是否友善)。
InstructGPT 的核心突破,在于無論它在語言基準測試上得分如何,生成的結果都更符合人類評判者的喜好(但 OpenAI 員工基本都說英語,所以這個結論也仍然不完全可靠)。從這個角度看,也許我們未來不該單純用基準測試作為 AI 能力評估的唯一指標。人類的感受可能同樣重要、甚至更加重要。
之前 Altman 與 OpenAI 都曾經對有益人工通用智能(AGI)發表過嚴肅承諾,所以我相信 GPT-4 肯定會借用一部分從 InstructGPT 中獲得的發現。
他們會改進模型的對齊方式,突破只順應“說英語的內部員工”的樊籬。真正的對齊必須能夠順應不同性別、不同種族、不同國籍、不同宗教信仰等各類群體的習慣。這當然是個嚴苛挑戰,而朝這個目標邁出的任何一步都將是可喜的進展。
情報總結
模型大小:GPT-4 會比 GPT-3 更大,但應該小于當前最大的語言模型(5300 億參數的 MT-NLG 與 5400 億參數的 PaLM)。總之,GPT-4 不再強調以大取勝。
優化:GPT-4 消耗的算力比 GPT-3 更多。它將在參數化(最優超參數)與規模擴展(訓練 token 數量與模型大小同等重要)方面做出新的最優性探索。
多模態:GPT-4 將是一個純文本模型(而非多模態模型)。OpenAI 正努力將語言模型發揮到極致,之后再逐步轉向 DALL·E 等有望全面超越單模態系統的多模態模型。
稀疏性:GPT-4 將延續 GPT-2 與 GPT-3 的趨勢,仍然保持密集模型的身份(使用全部參數來處理任何給定輸入)。但未來稀疏性可能逐漸占據主導地位。
對齊:GPT-4 的對齊程度將高于 GPT-3。借助從 InstructGPT 中總結出的知識,GPT-4 也將獲得由人工反饋訓練得出的寶貴經驗。但 AI 對齊難題的徹底解決還有很長的路要走,目前仍在探索階段、不宜大肆宣揚。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。