<samp id="weygu"></samp>

<kbd id="weygu"><pre id="weygu"></pre></kbd><samp id="weygu"><tbody id="weygu"></tbody></samp>

<samp id="weygu"></samp>

新聞中心

EEPW首頁 > 智能計算 > 業界動態 > 2019深度學習語音合成指南

2019深度學習語音合成指南

作者：栗峰時間：2019-09-02 來源：雷鋒網

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

編者按：追趕最前沿~

Parallel WaveNet：快速高保真語音合成

本文引用地址：http://www.104case.com/article/201909/404379.htm

這篇文章的作者來自谷歌。他們引入了一種叫做概率密度蒸餾的方法，它從一個訓練過的WaveNet中訓練一個并行前饋網絡。該方法是通過結合逆自回歸流(IAFS)和波形網(WaveNet)的最佳特征構建的。這些特征代表了WaveNet的有效訓練和IAF網絡的有效采樣。

文章鏈接：https://arxiv.org/abs/1711.10433

為了進行有效訓練，作者使用一個已經訓練過的WaveNet作為“老師”，并行WaveNet‘學生’向其學習。目的是為了讓學生從老師那里學到的分布中匹配自己樣本的概率。

圖18

作者還提出了額外的損失函數，以指導學生生成高質量的音頻流：

●功率損失函數：確保使用語音不同頻帶的功率，就像人在說話一樣。

●感知損失函數：針對這種損失函數，作者嘗試了特征重構損失函數(分類器中特征圖之間的歐氏距離)和風格損失函數(Gram矩陣之間的歐氏距離)。他們發現風格損失函數會產生更好的效果。

●無論條件向量如何，對比度損失會懲罰有高可能性的波形。

下圖顯示了這個模型的性能：

圖19

利用小樣本的神經網絡語音克隆

據雷鋒網了解，這篇文章的作者來自百度研究院。他們引入了一個神經語音克隆系統，它可以通過學習從少量音頻樣本合成一個人的聲音。

系統使用的兩種方法是說話人自適應和說話人編碼。說話人自適應是通過對多個說話人的聲音生成模型進行微調來實現的，而說話人編碼則是通過訓練一個單獨的模型來直接推斷一個新的嵌入到多個說話人語音生成模型。

文章鏈接：https://arxiv.org/abs/1802.06006v3

本文采用Deep Voice 3作為多說話人模型的基線。所謂聲音克隆，即提取一個說話人的聲音特征，并根據這些特征來生成給定的文本所對應的音頻。

生成音頻的性能指標決定于語音的自然度和說話人聲音的相似度。作者提出了一種說話人編碼方法，該方法能夠從未曾見過的說話人音頻樣本中預測說話人聲音嵌入。

圖20

下面是聲音克隆的性能：

圖21

圖22

VoiceLoop：通過語音循環進行語音擬合與合成

這篇文章的作者來自Facebook AI研究院。他們引入了一種神經文本到語音(TTS)技術，可以將文本從野外采集的聲音轉換為語音。

文章鏈接：https://arxiv.org/abs/1707.06588

VoiceLoop的靈感來源于一種稱為語音循環的工作記憶模型，它能在短時間內保存語言信息。它由兩部分組成，其一是一個不斷被替換的語音存儲（phonological store），其二是一個在語音存儲中保持長期表達（longer-term representations）的預演過程。

Voiceloop將移動緩沖區視作矩陣，從而來構造語音存儲。句子表示為音素列表。然后從每個音素解碼一個短向量。通過對音素的編碼進行加權并在每個時間點對它們求和來生成當前的上下文向量。

使VoiceLoop脫穎而出的一些屬性包括：使用內存緩沖區而不是傳統的RNN，所有進程之間的內存共享，以及使用淺層、全連接的網絡進行所有計算。

圖23

下圖顯示了模型與其他替代方案相比的性能表現。

圖24

圖25

利用梅爾圖譜預測上的條件WaveNet進行自然TTS合成

作者來自谷歌和加州大學伯克利分校。他們引入了Tacotron 2，這是一種用于文本語音合成的神經網絡架構。

文章鏈接：https://arxiv.org/abs/1712.05884

它由一個循環的的序列到序列特征預測網絡組成，該網絡將字符嵌入到梅爾標度圖譜中。然后是一個修改后的WaveNet模型，這個模型充當聲碼器，利用頻譜圖來合成時域波。模型的平均意見評分(MOS)為4.53分。

圖26

這個模型結合了Tacconon和WaveNet的最佳特點。下面是它與其他模型的性能對比：

圖27

雷鋒網小結

現在的語音合成技術發展很快，我們希望能夠盡快追趕上最前沿的研究。以上這幾篇文章是當前語音合成領域最重要的進展代表，論文、以及其代碼實現都可在網上找到，期待你能去下載下來進行測試，并能夠獲得期望的結果。

讓我們一起創造一個豐富多彩的語音世界。

原文鏈接：https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

本文轉自雷鋒網，如需轉載請至雷鋒網官網申請授權。

原文章地址為2019深度學習語音合成指南

上一頁 1 2 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞：

評論

相關推薦

我國研制出世界首個氮化鎵量子光源芯片

EDA/PCB 氮化鎵量子光芯片 | 2024-04-19

全球經濟減緩——半導體產業的機會在哪里？

視頻半導體嵌入式 | 2011-12-28

有ARM 44B0空板！

armstudy | 2004-08-04

STR5412電源

設計方案 STR5412 電源 | 2009-07-06

程序的移植

edisontang | 2004-08-04

面向 RF 應用的低相位噪聲頻率合成器

視頻 ADI Linear 頻率合成器 LTC6945 LTC6946 | 2012-01-04

英特爾首發大型神經擬態系統Hala Point，推進“綠色AI”發展

智能計算英特爾神經擬態系統 Hala Point 綠色AI | 2024-04-18

日本政府擬出資超700億日元支持多家日企打造AI超算

智能計算日本人工智能補貼 | 2024-04-19

美國施壓不準向中國提供光刻機維修服務！ASML再回應

EDA/PCB 光刻機阿斯麥 | 2024-04-19

占地78萬平！雷軍：計劃向普通人開放小米汽車工廠

汽車電子小米汽車雷軍工廠 | 2024-04-19

中國國際國防電子展覽會

視頻國防電子 | 2012-01-12

采用saa7110和al250集成芯片的tv／vga轉換電路

資源下載 | 2007-02-14

變頻調速技術在水泵控制系統中的應用

資源下載 | 2007-02-14

博世CEO：車企打價格供應商受傷有車企不降價不付款

汽車電子博世電動車 | 2024-04-19

SONY KV2184電源

設計方案 KV2184 電源 | 2009-07-06

幾種實現485隔離電路方案對比

模擬技術電路設計數字隔離 | 2024-04-19

超低功耗電子電路系統設計原則

資源下載 | 2007-02-14

飛思卡爾微處理器和傳感器的創新產品和解決方案

視頻 Freescale 微處理器傳感器 | 2011-12-28

STM32單片機最小系統設計

嵌入式系統 STM32 最小系統板最小體統設計 | 2024-04-19

SONY KV2185電源

設計方案 KV2185 電源 | 2009-07-06

vxWorks中console_tty的問題

winder | 2004-08-04

思創嵌入式系統開發能力培訓招生簡章

joyyun33 | 2004-08-04

安全認證系統中嵌入USB接口技術

資源下載 | 2007-02-14

采用PDIUSBD12的USB系統固件程序設計

資源下載 | 2007-02-14

SONY G3F-K電源-2

設計方案 G3F-K 電源 | 2009-07-06

BOE（京東方）越南智慧終端二期項目開工

光電顯示 BOE 京東方 | 2024-04-18

有ARM 44B0空板提供！

armstudy | 2004-08-04

現代嵌入式CPU的發展和演變

視頻 MIPS 嵌入式 | 2011-12-28

英特爾攜手生態伙伴重磅發布OPS 2.0，推動智慧教育應用創新落地

物聯網與傳感器英特爾 OPS 2.0 智慧教育開放式可插拔標準 | 2024-04-18

SONY G3F-K電源-1

設計方案 G3F-K 電源 | 2009-07-06

焦點

推薦視頻

技術專區

關閉

主站蜘蛛池模板：吉林市| 江川县| 客服| 本溪市| 阿巴嘎旗| 遂平县| 南涧| 临江市| 永康市| 安顺市| 大厂| 大石桥市| 日土县| 玉龙| 疏附县| 布尔津县| 隆林| 绵竹市| 新田县| 建瓯市| 肇州县| 启东市| 抚宁县| 甘泉县| 蒙阴县| 东城区| 内江市| 宁武县| 宜阳县| 富蕴县| 佳木斯市| 石泉县| 讷河市| 陆川县| 万全县| 星子县| 恩施市| 健康| 尤溪县| 随州市| 天全县|

<strike id="yiaia"></strike>

<tr id="yiaia"></tr>