神經腦植入物提供近乎即時的語音
英國物理學家斯蒂芬·霍金 (Stephen Hawking) 可以說是最著名的肌萎縮側索硬化癥 (ALS) 患者,他使用安裝在眼鏡中的傳感器與世界交流。該傳感器使用他臉頰上一塊肌肉的微小運動來選擇屏幕上的字符。一旦他以大約每分鐘一個單詞的速度輸入一個完整的句子,文本就會被 DECtalk TC01 合成器合成成語音,這給了他標志性的機器人聲音。
本文引用地址:http://www.104case.com/article/202506/471843.htm但自霍金于 2018 年去世以來,發生了很多變化。最近的腦機接口 (BCI) 設備使將神經活動直接轉化為文本甚至語音成為可能。不幸的是,這些系統具有明顯的延遲,通常會將用戶限制在預定義的詞匯表中,并且它們無法處理口語的細微差別,如音高或韻律。現在,加州大學戴維斯分校 (University of California, Davis) 的一個科學家團隊已經制造了一種神經假體,可以立即將大腦信號轉換為聲音——音素和單詞。這可能是我們朝著完全數字化聲帶邁出的第一步。
短信
“我們的主要目標是創造一種靈活的言語神經假體,使癱瘓患者能夠盡可能流利地說話,管理自己的節奏,并通過讓他們調節語調來提高表現力,”領導這項研究的加州大學戴維斯分校神經假肢研究員 Maitreyee Wairagkar 說。開發滿足所有這些條件的假肢是一項巨大的挑戰,因為這意味著 Wairaggar 的團隊必須解決基于 BCI 的通信解決方案過去面臨的幾乎所有問題。他們遇到了很多問題。
第一個問題是超越文本——迄今為止開發的大多數成功的神經假體都將大腦信號轉化為文本——植入假體的患者想說的話只是出現在屏幕上。Francis R. Willett 在斯坦福大學領導了一個團隊,以大約 25% 的錯誤率實現了大腦到文本的翻譯。“當患有 ALS 的女性試圖說話時,他們可以解碼這些單詞。四個詞中有三個是正確的。這非常令人興奮,但對于日常交流來說還不夠,“加州大學戴維斯分校的神經科學家、該研究的資深作者謝爾蓋·斯塔維斯基 (Sergey Stavisky) 說。
延誤和字典
在斯坦福大學工作一年后,即 2024 年,Stavisky 的團隊發表了自己對大腦到文本系統的研究,將準確率提高到 97.5%。“幾乎每個單詞都是正確的,但通過文本進行交流可能會受到限制,對吧?”斯塔維斯基說。“有時你想用你的聲音。它允許你做感嘆詞,它使其他人打斷你的可能性更小——你可以唱歌,你可以使用字典中沒有的單詞。但生成語音的最常見方法依賴于從文本中合成語音,這直接導致了 BCI 系統的另一個問題:非常高的延遲。
在幾乎所有的 BCI 語音輔助工具中,句子在患者在腦海中完成單詞串在一起很久之后,都會在很長一段時間后出現在屏幕上。語音合成部分通常發生在文本準備好之后,這會導致更多的延遲。Brain-to-text 解決方案也受到詞匯量有限的影響。此類最新系統支持大約 1,300 個單詞的詞典。當您嘗試說不同的語言、使用更復雜的詞匯,甚至說出附近咖啡館的不尋常名稱時,系統都失敗了。
因此,Wairagkar 設計了她的假肢,將大腦信號轉化為聲音,而不是文字,并且是實時完成的。
提取聲音
同意參加 Wairagkar 研究的患者代號為 T15,是一名 46 歲的 ALS 患者。“他嚴重癱瘓,當他試圖說話時,他很難理解。我認識他好幾年了,當他說話時,我可能能聽懂他所說的 5%,“神經外科醫生、該研究的合著者 David M. Brandman 說。在與加州大學戴維斯分校團隊合作之前,T15 使用陀螺儀頭鼠標來控制計算機屏幕上的光標進行通信。
為了使用 Stavisky 的大腦到文本系統的早期版本,患者將 256 個微電極植入他的腹側中央前回,這是大腦中負責控制聲帶肌肉的區域。
對于新的大腦轉語音系統,Wairagkar 和她的同事們依賴于相同的 256 個電極。“我們記錄了來自單個神經元的神經活動,這是我們可以從大腦獲得的最高分辨率信息,”Wairagkar 說。然后,電極記錄的信號被發送到一種稱為神經解碼器的 AI 算法,該算法破譯這些信號并提取語音特征,例如音高或發聲。下一步,這些功能被輸入到聲碼器中,聲碼器是一種語音合成算法,旨在聽起來像 T15 在仍然能夠正常說話時的聲音。整個系統的工作延遲低至 10 毫秒左右 — 將大腦信號轉換為聲音實際上是瞬時的。
由于 Wairagkar 的神經假體將大腦信號轉換為聲音,因此它沒有提供有限的支持詞選擇。患者可以說任何他想說的話,包括字典中沒有的偽詞和“um”、“hmm”或“uh”等感嘆詞。因為系統對音高或韻律等特征很敏感,所以他還可以發聲問題,說出一個音調稍高的句子中的最后一個單詞,甚至可以唱出短促的旋律。
但 Wairagkar 的假肢有其局限性。
清晰度改進
為了測試假肢的性能,Wairagkar 的團隊首先要求人類聽眾將 T15 患者的一些合成語音錄音與一組六個相似長度的候選句子中的一份轉錄相匹配。在這里,結果非常完美,系統實現了 100% 的清晰度。
當團隊嘗試了一些更困難的事情時,問題就開始了:一個開放式轉錄測試,聽眾必須在沒有任何候選轉錄的情況下工作。在第二次測試中,單詞錯誤率為 43.75%,這意味著參與者正確識別了一半以上的記錄單詞。與 T15 的獨立語音的清晰度相比,這無疑是一個進步,在 T15 的同一測試中,同一組聽眾的單詞錯誤為 96.43%。但是,這個假肢雖然很有前途,但還不夠可靠,無法用于日常通信。
“我們還沒有到可以用于開放式對話的地步。我認為這是一個概念驗證,“Stavisky 說。他建議改進未來設計的一種方法是使用更多的電極。“現在有很多初創公司在構建 BCI,這些 BCI 將擁有一千多個電極。如果你想想我們只用 250 個電極所取得的成就,而用 1000 或 2000 個電極就能完成的工作,我認為它會很有效,“他爭辯道。實現這一目標的工作已經在進行中。
Paradromics 是一家位于德克薩斯州奧斯汀的專注于 BCI 的初創公司,希望繼續進行語音神經假體的臨床試驗,并且已經在尋求 FDA 的批準。“他們有一個 1,600 個電極的系統,他們公開表示他們將進行演講,”Stavisky 說。“我們的合著者 David Brandman 將成為這些試驗的首席研究員,我們將在加州大學戴維斯分校進行這項工作。”
評論