新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > AI驅(qū)動的耳機通過語音克隆和3D空間音頻提供群組翻譯

AI驅(qū)動的耳機通過語音克隆和3D空間音頻提供群組翻譯

作者：時間：2025-05-13 來源：Tech Xplore

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

華盛頓大學（University of Washington）的博士生陳拓超（Tuochao Chen）最近參觀了墨西哥的一家博物館。陳不會說西班牙語，所以他在手機上運行了一個翻譯應(yīng)用程序，并將麥克風對準導游。但即使在博物館相對安靜的地方，周圍的噪音也太大了。由此產(chǎn)生的文本毫無用處。

最近出現(xiàn)了各種技術(shù)，有望實現(xiàn)流暢的翻譯，但這些都沒有解決陳的公共空間問題。例如，Meta 的新眼鏡只能與隔離揚聲器一起使用;他們會在說話人完成后播放自動語音翻譯。

現(xiàn)在，Chen 和威斯康星大學的一組研究人員設(shè)計了一種耳機系統(tǒng)，可以同時翻譯多個揚聲器，同時保留人們聲音的方向和質(zhì)量。該團隊構(gòu)建了這個名為 Spatial Speech Translation 的系統(tǒng)，并使用裝有麥克風的現(xiàn)成降噪耳機。該團隊的算法將空間中的不同說話者分開，并在他們移動時跟隨他們，翻譯他們的語音，并以 2-4 秒的延遲播放。

華盛頓大學的研究人員設(shè)計了一種耳機系統(tǒng)，可以同時翻譯幾個人說話，跟隨他們的移動并保留他們聲音的方向和質(zhì)量。該團隊構(gòu)建了這個名為 Spatial Speech Translation 的系統(tǒng)，并使用配有麥克風的現(xiàn)成降噪耳機。圖片來源：Chen et al./CHI '25
該團隊于 4 月 30 日在日本橫濱舉行的 ACM CHI 計算系統(tǒng)中的人為因素會議上展示了他們的研究。概念驗證設(shè)備的代碼可供其他人構(gòu)建。“其他翻譯技術(shù)是建立在只有一個人在說話的假設(shè)之上的，”資深作者、華盛頓大學計算機科學與工程學院的教授Shyam Gollakota說。“但在現(xiàn)實世界中，你不能只有一個機器人聲音為一個房間里的多人說話。我們第一次保留了每個人的聲音及其來源。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI 耳機 語音克隆 3D空間音頻

焦點

更多>>

技術(shù)專區(qū)

關(guān)閉

新聞中心

AI驅(qū)動的耳機通過語音克隆和3D空間音頻提供群組翻譯

評論

相關(guān)推薦

技術(shù)專區(qū)