博客專欄

        EEPW首頁 > 博客 > 大腦視覺信號被Stable Diffusion復(fù)現(xiàn)圖像!“人類的謀略和謊言不存在了” | CVPR2023

        大腦視覺信號被Stable Diffusion復(fù)現(xiàn)圖像!“人類的謀略和謊言不存在了” | CVPR2023

        發(fā)布人:傳感器技術(shù) 時間:2023-03-05 來源:工程師 發(fā)布文章
        豐色 蕭簫 發(fā)自  量子位

        “現(xiàn)在Stable Diffusion已經(jīng)能重建大腦視覺信號了!”

        就在昨晚,一個聽起來細思極恐的“AI讀腦術(shù)”研究,在網(wǎng)上掀起軒然大波:

        圖片

        這項研究聲稱,只需用fMRI(功能磁共振成像技術(shù),相比sMRI更關(guān)注功能性信息,如腦皮層激活情況等)掃描大腦特定部位獲取信號,AI就能重建出我們看到的圖像!

        圖片

        例如這是一系列人眼看到的圖像,包括戴著蝴蝶結(jié)的小熊、飛機和白色鐘樓:

        圖片

        AI看了眼人腦信號后,立馬就給出這樣的結(jié)果,屬實把該抓的重點全都抓住了:


        再發(fā)展一步,這不就約等于哈利波特里的讀心術(shù)了嗎??

        圖片

        更有網(wǎng)友感到驚嘆:如果說ChatGPT開放API是件大事,那這簡直稱得上瘋狂。

        圖片

        所以,這究竟是怎么一回事?

        用Stable Diffusion可視化人腦信號

        這項研究來自日本大阪大學(xué),目前已經(jīng)被CVPR 2023收錄:

        圖片

        研究希望能從人類大腦活動中,重建高保真的真實感圖像,來理解大腦、并解讀計算機視覺模型和人類視覺系統(tǒng)之間的聯(lián)系。

        要知道,此前雖然有不少腦機接口研究,致力于從人類大腦活動中讀取并重建信號,如意念打字等。

        然而,從人類大腦活動中重建視覺信號——具有真實感的圖像,仍然挑戰(zhàn)極大。

        例如這是此前UC伯克利做過的一項類似研究,復(fù)現(xiàn)一張人眼看到的飛機片段,但計算機重建出來的圖像卻幾乎看不出飛機的特征:

        圖源UC伯克利研究Reconstructing Visual Experiences from Brain Activity Evoked by Natural Movies

        這次,研究人員重建信號選用的AI模型,是這一年多在圖像生成領(lǐng)域地位飛升的擴散模型

        當然,更準確地說是基于潛在擴散模型(LDM)——Stable Diffusion。

        整體研究的思路,則是基于Stable Diffusion,打造一種以人腦活動信號為條件的去噪過程的可視化技術(shù)。

        它不需要在復(fù)雜的深度學(xué)習(xí)模型上進行訓(xùn)練或做精細的微調(diào),只需要做好fMRI(功能磁共振成像技術(shù))成像到Stable Diffusion中潛在表征的簡單線性映射關(guān)系就行。

        它的概覽框架是這樣的,看起來也非常簡單:

        僅由1個圖像編碼器、1個圖像****,外加1個語義****組成。


        具體怎么work?

        如下圖所示,第一部分為本研究用到的LDM示意圖。

        其中ε代表圖像編碼器,D代表圖像****,而τ是一個文本編碼器(CLIP)

        圖片

        重點是解碼分析,如下圖所示,模型依次從大腦早期(藍色)和較高(黃色)視覺皮層內(nèi)的fMRI信號中,解碼出重建圖像(z)和相關(guān)文本c的潛在表征。

        然后將這些潛在表征當作輸入,就可以得到模型最終復(fù)現(xiàn)出來的圖像Xzc


        最后還沒有完,如編碼分析示意圖,作者還構(gòu)建了一個編碼模型,用來預(yù)測LDM不同組件(包括圖像z、文本c和zc所對應(yīng)的fMRI信號,它可以用來理解Stable Diffusion的內(nèi)部過程。


        可以看到,采用了zc的編碼模型在大腦后部視覺皮層產(chǎn)生的預(yù)測精確度是最高的。(zc是與c進行交叉注意的反向擴散后,z再添加噪聲的潛在表征)


        相比其它兩者,它生成的圖像既具有高語義保真度,分辨率也很高。


        還有用GAN重建人臉圖像的

        看完這項研究,已經(jīng)有網(wǎng)友想到了細思極恐的東西:

        這個AI雖然只是復(fù)制了“眼睛”所看到的東西。

        但是否會有一天,AI能直接從人腦的思維、甚至是記憶中重建出圖像或文字?


        “語言的用處不再存在了”


        于是有網(wǎng)友進一步想到,如果能讀取記憶的話,那么目擊證人的證詞似乎也會變得更可靠了:


        還別說,就在去年真有一項研究基于GAN,通過fMRI收集到的大腦信號重建看到的人臉圖像:


        不過,重建出來的效果似乎不怎么樣……


        顯然,在人臉這種比較精細的圖像生成上,AI“讀腦術(shù)”還有很長一段路要走。

        對于這種大腦信號重建的研究,也有網(wǎng)友提出了質(zhì)疑。

        例如,是否只是AI從訓(xùn)練數(shù)據(jù)集中提取出了相似的數(shù)據(jù)?


        對此有網(wǎng)友回復(fù)表示,論文中的訓(xùn)練數(shù)據(jù)集和測試集是分開的:


        作者們也在項目主頁中表示,代碼很快會開源。可以先期待一下~


        作者介紹

        本研究僅兩位作者。

        一位是2021年才剛剛成為大阪大學(xué)助理教授的Yu Takagi,他主要從事計算神經(jīng)科學(xué)和人工智能的交叉研究。

        最近,他同時在牛津大學(xué)人腦活動中心和東京大學(xué)心理學(xué)系利用機器學(xué)習(xí)技術(shù),來研究復(fù)雜決策任務(wù)中的動態(tài)計算。

        另一位是大阪大學(xué)教授Shinji Nishimoto,他也是日本腦信息通信融合研究中心的首席研究員。

        研究方向為定量理解大腦中的視覺和認知處理,谷歌學(xué)術(shù)引用3000+次。


        那么,你覺得這波AI重建圖像的效果如何?

        來源:量子位 


        *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



        關(guān)鍵詞: 視覺信號

        技術(shù)專區(qū)

        關(guān)閉
        主站蜘蛛池模板: 廉江市| 文成县| 鹤峰县| 元阳县| 雅安市| 淄博市| 澳门| 宜章县| 郎溪县| 屯昌县| 山阳县| 新宾| 乐亭县| 平遥县| 乌鲁木齐市| 北海市| 龙州县| 建始县| 平湖市| 军事| 信宜市| 溧阳市| 陈巴尔虎旗| 深泽县| 德格县| 临邑县| 枞阳县| 泽库县| 湘潭县| 恭城| 十堰市| 琼中| 阿拉善盟| 舞钢市| 宁南县| 泾川县| 门头沟区| 南昌市| 乐安县| 大余县| 桐城市|