直接壓縮一切!OpenAI首席科學家Ilya Sutskever這么看無監督學習(3)
直接壓縮一切!
Sutskever 又進一步提到「直接壓縮一切」也是可行的。
條件 Kolmogorov 復雜度 K (Y|X) 在機器學習語境中是不自然的,因為它是基于 X 來壓縮 Y,而至少就目前而言,以大型數據集為條件還是基本無法辦到的。我們可以擬合大型數據集,但很難以其為條件。
而上式是表示:如果你想要對你監督的東西 Y 進行預測,使用壓縮 X 和 Y 連接數據的常規 Kolmogorov 壓縮器的表現與條件壓縮器一樣好。當然實際細節還有更多微妙之處,但這其實就是表示我們可以使用常規 Kolmogorov 壓縮器來求解無監督學習 —— 就是將你的所有數據連接起來,然后執行壓縮,這樣就能在你關心的監督任務上得到很好的結果。
對此的證明要更復雜一些,這里就不再繼續深入了。
重點的結論是常規 Kolmogorov 壓縮(無需以某個數據集為條件)是「以最好的可能方式使用」無標注數據。這就是無監督學習的解。
聯合壓縮就是最大似然
Sutskever 在演講中談到的最后一點是:這種聯合壓縮就是最大似然,只要沒有過擬合。
如果你有一個數據集,那么給定參數的似然之和就是壓縮該數據集的成本。你還需要支付壓縮參數的成本。而如果你想壓縮兩個數據集,也沒有問題,只需向你的數據集添加數據點即可,也就是向上面的求和運算 sum 添加更多項。
所以通過連接數據來進行聯合壓縮在機器學習語境中是非常自然的做法。相比而言,通過條件 Kolmogorov 復雜度就麻煩多了。
我們甚至可以將其用于解釋神經網絡的工作方式。我們可以將用于大型神經網絡的 SGD 用作我們的大型程序搜索器。神經網絡越大,就能更好地近似常規 Kolmogorov 壓縮器。Sutskever 評價說:「也許這就是我們喜歡大型神經網絡的原因,因為我們可以以此近似不可實現的無遺憾常規 Kolmogorov 壓縮器思想。隨著我們訓練的神經網絡越來越大,遺憾會越來越低。」
此理論也適用于 GPT 模型嗎?
Sutskever 對此的答案是肯定的,不過解釋 GPT 模型的行為時,無需引述有關壓縮或監督學習的說明,你可以說 GPT 的「理論」可以通過對文本的條件分布進行推理而得到。
那么,我們能找到其它的直接驗證方法來驗證這一理論嗎?我們能用視覺等其它領域來解釋嗎?如果我們在像素數據上這樣操作,我們能得到優良的無監督學習嗎?
Sutskever 表示他們已經在 2020 年做過這樣的研究,即 iGPT。當然,這主要是一個驗證概念的研究,離實踐應用還有很大距離,詳見論文《Generative Pretraining from Pixels》。
該論文表明:如果你能做出很棒的下一步預測器,那么就能收獲很棒的無監督學習效果。這篇論文在圖像領域證明了該論斷。
簡單來說,先將圖片轉換成像素序列,每個像素都有一個離散的密度值。要做的就是使用同樣的 Transformer 來預測下一個像素。這不同于 BERT,就是預測下一個 token,因為這是最大化壓縮的似然。
下面來看看結果:
如圖所示,這是不同大小的 iGPT 模型在 CIFAR-10 上的線性探查準確度,也就是在無監督學習的像素預測任務上的下一步預測準確度。可以看出,預測下一個像素就和預測下一個詞一樣有效。當模型規模更大時,無監督學習的效果也更好。
他們進行了實驗研究,結果發現在 ImageNet 上,經過多方面擴展的 iGPT 的表現可以接近當今最佳的監督學習,但依然還有些差距。
不過 Sutskever 認為這就是個計算問題,因為 SimCLR 等監督學習方式使用的是高分辨率的大圖,他們為巨型 Transformer(68 億參數)提供的是 64×64 的小圖。這就像是基于一個大型數據集以無監督的方式預測下一個像素,然后在 ImageNet 上擬合線性探針,得到很好的結果。
而在 CIFAR-10 上,有 13.6 億參數的 iGPT-L 取得了準確度 99% 的好成績,如下圖所示。
線性表征
演講最后,Sutskever 表示他想談談線性表征。
他說:「我喜歡壓縮理論,因為在此之前還沒有以嚴格方式思考無監督學習的方法。」而現在我們能在一定程度上做到這一點了。但壓縮理論不能直接解釋為什么表征是線性可分的,也無法解釋應該有線性探針。線性表征是無處不在的,它們形成的原因必定很深刻。Sutskever 相信我們能在未來清晰地闡釋它。
他覺得另一個有趣的地方是自回歸模型在線性表征方面的表現優于 BERT。但目前人們還不清楚其中的緣由。
不過 Sutskever 倒是給出了自己的推測:在根據之前所有的像素預測下一個像素時,模型需要觀察數據的長程結構。BERT 在處理向量時會丟棄一些像素 token,通過兼顧地考慮一點過去和一點未來,模型實際上能得到相當好的預測結果。這樣一來就去除了所有困難任務,任務的難度就下降了很多。預測下一個像素中最困難的預測任務比 BERT 預測情況中最困難的預測任務難多了。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。