博客專欄

EEPW首頁 > 博客 > 我裂開了...人類腦海中的畫面，被AI解碼了？？

我裂開了...人類腦海中的畫面，被AI解碼了？？

發布人：大數據文摘時間：2022-11-21 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

發布文章

大數據文摘授權轉載自夕小瑤的賣萌屋作者：白鹡鸰

有沒有那么幾個瞬間，你要么想把自己腦子里的東西掏出來給別人看，要么想撬開別人的腦子看看里面都裝了什么？雖然錯過了霍格沃茨的入學時間，但如果從現在開始學習擴散模型和神經學，可能很快你就能實現這個目標了。新加坡國立大學，香港中文大學，和Stanford聯手，基于擴散模型實現了從腦電波還原圖像的“人類視覺****”。效果奇佳，還開源了代碼和數據，這還不來一起看看？

▲圖1 基于腦電波還原的圖像與真實圖像對比
論文題目：
Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding

論文鏈接：
http://arxiv.org/abs/2211.06956

代碼鏈接：
https://github.com/zjc062/mind-vis

背景

故事要從神經科學的基本理論說起。作為一個唯物主義的麻瓜，我必須相信，我的思維活動都依托于腦神經細胞，其釋放的電信號就是大腦內部通信計算的物理媒介。既然我能夠流暢地思考，那么腦電波必然傳遞了某種“有意義”的信號，而一段數據如果能攜帶某種信息，它必須要有一定規律可言。因此，從理論上來說，我們可以通過分析進行思維活動時產生的生物電信號，去反推思考的具體內容。這個觀點已然不新奇了，大量的研究已經證實了反推大腦思維的可行性，腦機接口蒸蒸日上的熱度，則是一個風向標，指示了相關技術在實際生活應用中的潛力。
當然，高情商的說法是有潛力，換個樸實一點的說法，那就是目前還存在大量技術瓶頸，研究中障礙重重。就拿通過腦電波還原人腦海中的圖像這個任務來說，雖然腦電波是有規律的，這種規律卻非常復雜。不僅如此，“每個人的腦回路不一樣”也是物理的，也就是說，對同樣的刺激（stimuli) ，每個人大腦做出的反饋都會存在差異。這個問題好解決嗎？對于ML人來說，太簡單了，大數據驅動。然而，聯系到實際問題，腦電數據的采集，特別是有標簽（腦電產生者思考內容）的腦電數據的采集，卻沒有特別豐富的數據。缺乏有標簽的數據，缺乏處理數據的方法，是目前這個任務上一直難以取的進展的主要原因。

方法

基于fMRI收集的腦電數據

人腦中有左右的腦細胞，而它們的激活模式是非線性的（一般會用一組復雜的微分方程建模）。為了能觀察如此復雜的神經網絡的活動，目前廣泛采用的是功能性磁共振成像（fMRI，functional magnetic resonance imaging）技術。這項技術不會對被試者造成物理上的傷害，包括外部創口（侵入式）和輻射問題。它的原理是利用磁共振技術，追蹤大腦在思維活動時的血氧變化，依據于此成像?；趂MRI技術，研究者采集了大量的，特別是當人類在進行各種復雜的任務時的大腦活動數據。經過分析，研究者們發現人們在處理同樣的任務時，大腦中被激活的區域基本相近 [1]。

作為1991年的Nature封面，fMRI得到了廣泛研究，目前采集數據的技術已經相當成熟。但這一塊的原理非常復雜，感興趣的話可以搜索血氧依賴機理，blood-oxygen-level-dependent, BOLD。

▲圖2 語言（講故事）任務中大腦被激活區域
神經科學方面雖然有相當多fMRI的原始數據，但在實際使用時，會遇到這樣一些問題：

fMRI掃描所得到的數據是以三維形式的體素 (voxel)記錄的，每個數據點包括了三維坐標，電信號幅度等信息，維度很高。為了避免對體素直接進行運算，一般采用的方法是劃興趣區域 (Region of Interest, ROI)，對電信號求時序上的均值，最終獲得一列體素，這樣的數據在緯度方面和通常處理的圖像數據存在相當的差距；
鄰近的體素往往電信號幅度相近，fMRI收集的信息中存在一定冗余；
因為人腦的復雜性，每個個體的數據都會存在一定的域偏移。

▲圖3 fMRI數據的可視化，一列體素，可視化成了一維折線圖

模型結構

論文將提出的模型命名為MinD-Vis (Sparse Masked Brain Modeling with Double-Conditioned Latent Diffusion Model for Human Vision Decoding), 也算是給對處理fMRI數據的提示了——掩碼。由于fMRI數據中存在大量的冗余，即使將相當大一部分的數據進行了遮掩，最后也能重建得大差不離（見圖3）。因此，計算時直接加上掩碼也不會對模型效果產生太大影響。因為fMRI數據的格式和圖像一樣，論文采用了新出的Masked Image Modeling [2] 來生成embedding vector。
編碼-解碼部分不是很意外地用了ViT。需要注意的是，中間表達采用的稀疏編碼，這是為了保證fMRI表征的細節不被破壞。
以上是Masked Brain Modeling（圖4左）部分的工作，然后就是擴散模型部分，如何從經過如此復雜預處理的fMRI數據中，獲取文本信息，并基于此生成圖像了（圖4右）。
為了能從抽象的表征中獲得視覺信息，論文將解碼任務化歸成了conditional synthesis問題，因此可以使用擴散模型解決。擴散模型的網絡包括一個預訓練過的UNet模型。生成圖像時的限定條件信息基于fMRI數據生成，通過cross-attention head加入UNet。

conditional synthesis是指限定某些特征后進行數據生成。例如，生成微笑的不同人臉。

對于一個conditional generative模型而言，生成圖像要能在條件限定的特征上盡量穩定，與條件無關的特征上保持多樣性。因為人與人的fMRI腦波數據中已經夠為多樣，在生成圖像的時候，需要對UNet進一步約束，強化條件上的限制。

▲圖4 MinD-Vis結構

由于模型的結構較為復雜，當前版本的論文中沒有進行更為詳細的描述，推薦極度好奇的讀者直接看開源代碼。由于涉及了像Masked Brain Modeling，Diffusion Model這類前沿方法，在沒有一定基礎的情況下，想徹底吃透方法會需要相當的時間和精力，大家可以量力而行。

效果

在大致了解了模型結構之后，還是來到各位最關心的部分，講講模型效果。
由于fMRI的數據主要面向神經科學方向的研究，滿足論文任務的數據量不大，模型的訓練、驗證、測試數據總共來自三個不同的數據集，不同集合的數據域都有所偏移。Human Connectome Project [1] 提供136,000個fMRI數據片段，沒有圖像，只有fMRI，主要是用來預訓練模型的解碼部分。Generic Object Decoding Dataset (GOD) [3] 是主要面向fMRI-圖像任務的，包含1250張來自200個類別的圖像，其中50張被用于測試。Brain, Object, Landscape Dataset (BOLD5000) [4] 則選取了113組fMRI-圖像數據對，作為測試。
由于BOLD5000是第一次用于論文提出的任務，論文沒有在這個數據集上與過往工作進行效果對比。在GOD上基于腦波生成的圖像，在效果上相比過往研究顯然有了顯著進步。

▲圖5 GOD數據集上，MinD-vis與過往方法效果比較
論文中還有嚴謹的消融實驗，展示了不同的模型部分對圖像生成效果的影響。部分圖片較為驚悚，此處不進行展示。感興趣的讀者可以參考圖6失敗集錦中右下角的圖片自行評估承受能力。
▲圖6 MinD-vis翻車集錦

尾聲

終于又到了白鹡鸰的快樂廢話環節。
關于生成圖像翻車現象的猜想
這未必完全是模型的鍋。根據多個生成模型的對比，可以假設被試者在看到圖像時，其實腦內會有一些特定的特征被激活，但是因為被試者對圖像的理解方式、關注點有所區別，激活的特征組也存在差異。之所以會有這種想法，是因為論文附件中的效果展示中，一般細節越復雜，角度越怪的圖像，越容易生成失敗，這很有可能就是因為圖像難以用簡單的特征組描述導致的。
這篇論文意義重大，影響深遠，后續工作可能上Nature
這篇論文展示的圖像生成效果非常好，展示了通過fMRI精確還原人們腦內圖像信息的可行性。在擁有了更大量的數據之后，人類是如何記憶圖像的更多細節的機理，可以通過生成圖像與被試者所見圖片之間的對比去推測，然后進一步完善、驗證。這是神經科學和機器學習成功結合的典范，一個起步的信號。
除此之外，論文本身能快速擁抱前沿技術，對SOTA模型的熟練應用，以及開源代碼的底氣也令我相當敬佩。對于論文后續的相關工作，我也會持續跟進。
參考文獻：

[1] David C Van Essen, Stephen M Smith, Deanna M Barch, Timothy EJ Behrens, Essa Yacoub, Kamil Ugurbil, Wu-Minn HCP Consortium, et al. The wu-minn human connectome project: an overview. Neuroimage, 80:62–79, 2013.[2] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.[3] Tomoyasu Horikawa and Yukiyasu Kamitani. Generic decoding of seen and imagined objects using hierarchical visual features. Nature communications, 8(1):1–15, 2017.[4] Nadine Chang, John A Pyles, Austin Marcus, Abhinav Gupta, Michael J Tarr, and Elissa M Aminoff. Bold5000, a public fmri dataset while viewing 5000 visual images. Scientific data, 6(1):1–18, 2019.

*博客內容為網友個人發布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

單片機相關文章:單片機教程

單片機相關文章:單片機視頻教程

單片機相關文章:單片機工作原理

風速傳感器相關文章:風速傳感器原理
土壤濕度傳感器相關文章:土壤濕度傳感器原理
溫濕度控制器相關文章:溫濕度控制器原理
燃氣報警器相關文章:燃氣報警器原理

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： AI

焦點

更多>>

技術專區

關閉

博客專欄

我裂開了...人類腦海中的畫面，被AI解碼了？？

相關推薦

技術專區

我裂開了...人類腦海中的畫面，被AI解碼了？？