7 Papers | 超越GPT 3.5的小模型;對ChatGPT摸底考試
本周論文包括2D 圖像腦補 3D 人體;亞馬遜發布超越 GPT 3.5 的小模型等研究。
轉自《機器之心》
目錄
- Structure and Content-Guided Video Synthesis with Diffusion Models
- EVA3D: Compositional 3D Human Generation from 2D Image Collections
- Multimodal Chain-of-Thought Reasoning in Language Models
- Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
- Toolformer: Language Models Can Teach Themselves to Use Tools
- Looped Transformers as Programmable Computers
- AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
論文 1:Structure and Content-Guided Video Synthesis with Diffusion Models
- 作者:Patrick Esser 、 Johnathan Chiu 等
- 論文地址:https://arxiv.org/pdf/2302.03011.pdf
摘要:近日,曾參與創建 Stable Diffusion 的 Runway 公司推出了一個新的人工智能模型「Gen-1」,該模型通過應用文本 prompt 或參考圖像指定的任何風格,可將現有視頻轉化為新視頻。具體來說,Gen-1 支持幾種編輯模式:1、風格化。將任何圖像或 prompt 的風格轉移到視頻的每一幀。2、故事板。將模型變成完全風格化和動畫的渲染。3、遮罩。分離視頻中的主題并使用簡單的文本 prompt 對其進行修改。4、渲染。通過應用輸入圖像或 prompt,將無紋理渲染變成逼真的輸出。5、定制化。通過自定義模型以獲得更高保真度的結果,釋放 Gen-1 的全部功能。在該公司官方網站上發布的 demo 中,展示了 Gen-1 如何絲滑地更改視頻風格,來看幾個示例。比如將「街道上的人」變成「粘土木偶」,只需要一行 prompt:
推薦:從文本生成圖像,再到給視頻加特效,下一個 AIGC 爆發點要出現了嗎?論文 2:EVA3D: Compositional 3D Human Generation from 2D Image Collections
- 作者:Fangzhou Hong 等
- 論文地址:https://arxiv.org/abs/2210.04888
摘要:在 ICLR 2023 上,南洋理工大學 - 商湯科技聯合研究中心 S-Lab 團隊提出了首個從二維圖像集合中學習高分辨率三維人體生成的方法 EVA3D。得益于 NeRF 提供的可微渲染,近期的三維生成模型已經在靜止物體上達到了很驚艷的效果。但是在人體這種更加復雜且可形變的類別上,三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達,實現了高分辨率(512x256)的三維人體生成,并且沒有使用超分模型。EVA3D 在四個大型人體數據集上均大幅超越了已有方案,代碼已開源。推薦:2D 圖像腦補 3D 人體,衣服隨便搭,還能改動作。論文 3:Multimodal Chain-of-Thought Reasoning in Language Models
- 作者:Zhuosheng Zhang 等
- 論文地址:https://arxiv.org/abs/2302.00923
摘要:眾所周知,ChatGPT 是在 GPT-3.5 系列模型的基礎上微調而來的,我們看到很多研究也在緊隨其后緊追慢趕,但是,與 ChatGPT 相比,他們的新研究效果到底有多好?近日,亞馬遜發布的一篇論文提出了包含視覺特征的 Multimodal-CoT,該架構在參數量小于 10 億的情況下,在 ScienceQA 基準測試中,比 GPT-3.5 高出 16 個百分點 (75.17%→91.68%),甚至超過了許多人類。下圖為 Multimodal CoT 兩階段過程:使用文本(問題 + 上下文)和視覺特征來產生邏輯依據。推薦:超越 GPT 3.5 的小模型來了!論文 4:Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
- 作者:Chengwei Qin 等
- 論文地址:https://arxiv.org/pdf/2302.06476.pdf
摘要:ChatGPT 真的是「通才」嗎?單拎出哪項能力都能完勝其他模型嗎?哪些任務是 ChatGPT 擅長的,哪些不是?為了系統地探索這些問題,南洋理工大學博士生 Chengwei Qin、斯坦福大學計算機科學助理教授楊笛一等人進行了大量實驗。該研究主要比較了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任務下的 zero-shot 學習性能。推薦:ChatGPT 真的是「通才」嗎?楊笛一等人給它來了個摸底考試。論文 5:Toolformer: Language Models Can Teach Themselves to Use Tools
- 作者:Timo Schick 等
- 論文地址:https://arxiv.org/pdf/2302.04761v1.pdf
摘要:在自然語言處理任務中,大型語言模型在零樣本和少樣本學習方面取得了令人印象深刻的結果。然而,所有模型都存在固有的局限性,往往只能通過進一步擴展來部分解決。具體來講,模型的局限性包括無法訪問最新信息、會對事實產生「信息幻覺」、低資源語言理解困難、缺乏進行精確計算的數學技能等等。解決這些問題的一種簡單方法就是給模型配備外部工具,如搜索引擎、計算器或日歷。然而,現有方法通常依賴于大量的人工注釋,或將工具的使用限制在特定的任務設置下,使得語言模型與外部工具的結合使用難以推廣。為了打破這種瓶頸,近期 Meta AI 提出了一種稱為 Toolformer 的新方法,使得語言模型學會「使用」各種外部工具。如下為 Toolformer 的典型預測。推薦:語言模型自己學會用搜索引擎了?Meta AI 提出 API 調用自監督學習方法 Toolformer。論文 6:Looped Transformers as Programmable Computers
- 作者:Angeliki Giannou 等
- 論文地址:https://arxiv.org/pdf/2301.13196.pdf
摘要:在本文中,作者展示了 Transformer 網絡可以通過使用特定權重對它們進行硬編碼并將它們置于一個循環中來模擬復雜的算法和程序。作者通過對 Attention 進行逆向工程來模擬基本計算塊來做到這一點,例如對輸入序列的編輯操作、非線性函數、函數調用、程序計數器和條件分支。作者的論文證明了使用單個循環或遞歸將 Transformer 的輸出序列連接回其輸入的重要性,從而避免對深度模型的需要。如下為用作實現小型指令集計算機構建塊的三個 Transformer 塊的示意圖。推薦:作者展示了 Transformer 網絡可以通過使用特定權重對它們進行硬編碼并將它們置于一個循環中來模擬復雜的算法和程序。論文 7:AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
- 作者:Haohe Liu 等
- 論文地址:https://arxiv.org/abs/2301.12503
摘要:給出一段文字,人工智能就可以生成音樂,語音,各種音效,甚至是想象的聲音,比如黑洞和激光槍。最近由英國薩里大學和帝國理工學院聯合推出的 AudioLDM,在發布之后迅速火遍國外,一周內在推特上收獲了近 300 次的轉發和 1500 次的點贊。在模型開源第二天,AudioLDM 就沖上了 Hugging Face 熱搜榜第一名,并在一周內進入了 Hugging Face 最受喜歡的前 40 名應用榜單(共約 25000),也迅速出現了很多基于 AudioLDM 的衍生工作。推薦:開源模型、單卡訓練,帶你了解爆火的文本指導音頻生成技術 AudioLDM。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。