博客專欄

        EEPW首頁 > 博客 > Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態(tài)!(2)

        Meta 開源 ImageBind 新模型,超越 GPT-4,對齊文本、音頻等 6 種模態(tài)?。?)

        發(fā)布人:AI科技大本營 時(shí)間:2023-05-22 來源:工程師 發(fā)布文章

        圖片

        ImageBind 的性能


        針對 ImageBind 性能,Meta 研究科學(xué)家還發(fā)布了一篇《IMAGEBIND: One Embedding Space To Bind Them All》(https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf)論文,分享了技術(shù)細(xì)則。

        圖片

        通過分析表明,ImageBind 模型的性能實(shí)際上可以通過使用很少的訓(xùn)練實(shí)例來提高。這個模型有新的出現(xiàn)的能力,或者說是擴(kuò)展行為--也就是說,在較小的模型中不存在的能力,但在較大的版本中出現(xiàn)。這可能包括識別哪種音頻適合某張圖片或從照片中預(yù)測場景的深度。

        而 ImageBind 的縮放行為隨著圖像編碼器的強(qiáng)度而提高。

        換句話說,ImageBind 對準(zhǔn)各種模式的能力隨著視覺模型的強(qiáng)度和大小而增加。這表明,較大的視覺模型有利于非視覺任務(wù),如音頻分類,而且訓(xùn)練這種模型的好處超出了計(jì)算機(jī)視覺任務(wù)。

        在實(shí)驗(yàn)中,研究人員使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進(jìn)行了比較。

        結(jié)果顯示,ImageBind 可以用于少量樣本的音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。

        圖片

        最終,Meta 認(rèn)為 ImageBind 這項(xiàng)技術(shù)最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當(dāng)前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。” 


        圖片

        ImageBind 可以用來干什么?


        如果說 ChatGPT 可以充當(dāng)搜索引擎、問答社區(qū),Midjourney 可以被用來當(dāng)畫畫工具,那么用 ImageBind 可以做什么?

        根據(jù)官方發(fā)布的 Demo 顯示,它可以直接用圖片生成音頻:

        圖片

        也可以音頻生成圖片:

        圖片

        亦或者直接給一個文本,就可以檢索相關(guān)的圖片或者音頻內(nèi)容:

        圖片

        當(dāng)然,基于 ImageBind 也可以給出一個音頻+一張圖,如“狗叫聲”+海景圖:

        圖片

        可以直接得到一張“狗在看海”的圖:

        圖片

        也可以給出音頻,生成相應(yīng)的圖像:

        圖片

        正如上文所述, ImageBind 給出了未來生成式 AI 系統(tǒng)可以以多模態(tài)呈現(xiàn)的方式,同時(shí),結(jié)合 Meta 內(nèi)部的虛擬現(xiàn)實(shí)、混合現(xiàn)實(shí)和元宇宙等技術(shù)和場景結(jié)合。

        可以想象一下未來的頭顯設(shè)備,它不僅可以生成音頻和視頻輸入,也可以生成物理舞臺上的環(huán)境和運(yùn)動,即可以動態(tài)構(gòu)建 3D 場景(包括聲音、運(yùn)動等)。

        亦或者,虛擬游戲開發(fā)人員也許最終可以使用它來減少設(shè)計(jì)過程中的大量跑腿工作。

        同樣,內(nèi)容創(chuàng)作者可以僅基于文本、圖像或音頻輸入制作具有逼真的音頻和動作的沉浸式視頻。

        也很容易想象,用 ImageBind 這樣的工具會在無障礙空間打開新的大門,譬如,生成實(shí)時(shí)多媒體描述來幫助有視力或聽力障礙的人更好地感知他們的直接環(huán)境。

        “在典型的人工智能系統(tǒng)中,每個模態(tài)都有特定的嵌入(即可以表示數(shù)據(jù)及其在機(jī)器學(xué)習(xí)中的關(guān)系的數(shù)字向量),”Meta 說?!癐mageBind 表明可以跨多種模態(tài)創(chuàng)建聯(lián)合嵌入空間,而無需使用每種不同模態(tài)組合對數(shù)據(jù)進(jìn)行訓(xùn)練。這很重要,因?yàn)檠芯咳藛T無法創(chuàng)建包含例如來自繁忙城市街道的音頻數(shù)據(jù)和熱數(shù)據(jù),或深度數(shù)據(jù)和海邊文本描述的樣本的數(shù)據(jù)集?!?/span>

        當(dāng)前,外界可以通過大約 30 行 Python 代碼就能使用這個多模式嵌入 API:

        圖片


        圖片

        開源大模型是好事還是壞事?


        ImageBind 一經(jīng)官宣,也吸引了很多 AI 專家的關(guān)注。如卷積網(wǎng)絡(luò)之父 Yann LeCun 也在第一時(shí)間分享了關(guān)于 ImageBind 的資料:

        圖片

        NVIDIA AI 科學(xué)家 Jim Fan 在 Twitter 上表示:

        自從 LLaMA 以來,Meta 就在開源領(lǐng)域大放異彩。

        ImageBind:Meta 最新的多模態(tài)嵌入,不僅涵蓋了常規(guī)數(shù)據(jù)類型(文本、圖像、音頻),還包括深度、熱量(紅外)和 IMU 信號!

        OpenAI Embedding 是 AI 驅(qū)動搜索和長期記憶的基礎(chǔ)。ImageBind 是 Meta 的 Embedding API,用于豐富的多媒體搜索、虛擬現(xiàn)實(shí)甚至機(jī)器人技術(shù)。元宇宙將建立在向量的基礎(chǔ)上。

        通過對齊 6 種模態(tài),你可以實(shí)現(xiàn)一些僅靠文本的 GPT-4 無法實(shí)現(xiàn)的花式功能:

        • 跨模態(tài)檢索:將其視為多媒體谷歌搜索

        • 嵌入空間算術(shù):無縫地組合不同的數(shù)據(jù)格式。

        • 生成:通過擴(kuò)散將任何模態(tài)映射到其他任何模態(tài)。

        當(dāng)然,這種通用的多模態(tài)嵌入在性能上優(yōu)于領(lǐng)域特定的特征。

        ImageBind:將它們?nèi)拷壎ǖ揭粋€嵌入空間。

        圖片

        也有網(wǎng)友評價(jià)道,「這項(xiàng)創(chuàng)新為增強(qiáng)搜索、沉浸式 VR 體驗(yàn)和高級機(jī)器人技術(shù)鋪平了道路。對于 AI 愛好者和專業(yè)人士來說,激動人心的時(shí)刻即將到來!」。

        圖片

        不過,對于 Meta 采取開源的做法,也有人提出了質(zhì)疑。

        據(jù) The Verge 報(bào)道,那些反對開源的人,如 OpenAI,表示這種做法對創(chuàng)作者有害,因?yàn)楦偁帉κ挚梢詮?fù)制他們的作品,并且可能具有潛在的危險(xiǎn),允許惡意行為者利用最先進(jìn)的人工智能模型。

        與之形成對比的是,支持開源的人則認(rèn)為,像 Meta 開源 ImageBind 的做法有利于生態(tài)的快速建立與發(fā)展,也能集結(jié)全球的力量,幫助 AI 模型快速迭代和捕捉 Bug。

        早些時(shí)候,Meta 開源的 LLaMA 模型只能用于研究用途,但是期間 LLaMA 模型在 4chan 上被泄露,有匿名用戶通過 BT 種子公開了 LLaMA-65B—— 有 650 億個參數(shù)的 LLaMA,容量為 220GB。

        隨著 LLaMA “被公開”,一大批基于這款大模型的衍生品,號稱是 ChatGPT 開源替代品的工具在短時(shí)間內(nèi)快速涌現(xiàn),如跟著  LLaMA(美洲駝)名字走的類”家族包含了:斯坦福大學(xué)發(fā)布的 Alpaca(羊駝,https://github.com/tatsu-lab/stanford_alpaca),伯克利、卡內(nèi)基梅隆大學(xué)等高校研究人員開源的 Vicuna(駱馬),還有基于 LLaMA 7B 的多語言指令跟隨語言模型 Guanaco(,https://guanaco-model.github.io/)等等。

        面對這股新興的力量,近日,在一位谷歌內(nèi)部的研究人員泄露的一份文件中顯示,在大模型時(shí)代,「Google 沒有護(hù)城河,OpenAI 也沒有」。其主要原因就是第三股——開源大模型的力量與生態(tài)正在崛起。

        所以,OpenAI 和 Google 兩家在 AI 大模型上你追我趕的競爭中,誰能笑到最后,也未必就不會是 Meta,我們也將拭目以待。對此,你是否看好開源大模型的發(fā)展?

        相關(guān)閱讀

        論文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

        GitHub 地址:https://github.com/facebookresearch/ImageBind

        Demo:https://imagebind.metademolab.com/

        參考

        https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

        https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research



        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: AI

        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 崇文区| 南宁市| 丽江市| 崇礼县| 佳木斯市| 青浦区| 噶尔县| 鄂托克旗| 丹巴县| 清新县| 炎陵县| 玉环县| 武鸣县| 瑞金市| 临安市| 五莲县| 英山县| 太仓市| 阿勒泰市| 沙雅县| 凤山县| 瑞安市| 巴马| 天门市| 乌苏市| 东明县| 夏河县| 潜山县| 米脂县| 阳信县| 越西县| 井陉县| 新乡市| 固阳县| 汝阳县| 万州区| 西昌市| 曲水县| 青神县| 赫章县| 余庆县|