新聞中心

EEPW首頁 > 消費電子 > 設(shè)計應用 > GMM-HMM語音識別原理詳解

GMM-HMM語音識別原理詳解

作者：時間：2017-10-25 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　本文簡明講述GMM-HMM在語音識別上的原理，建模和測試過程。

本文引用地址：http://www.104case.com/article/201710/368485.htm

　　1. 什么是Hidden Markov Model？

　　HMM要解決的三個問題：

　　1） Likelihood

　　2） Decoding

　　3） Training

　　2. GMM是什么？怎樣用GMM求某一音素（phoneme）的概率？

　　3. GMM+HMM大法解決語音識別

　　3.1 識別

　　3.2 訓練

　　3.2.1 Training the params of GMM

　　3.2.2 Training the params of HMM

　　====================================================================

　　1. 什么是Hidden Markov Model？

　　

　　ANS：一個有隱節(jié)點（unobservable）和可見節(jié)點（visible）的馬爾科夫過程（見詳解）。

　　隱節(jié)點表示狀態(tài)，可見節(jié)點表示我們聽到的語音或者看到的時序信號。

　　最開始時，我們指定這個HMM的結(jié)構(gòu)，訓練HMM模型時：給定n個時序信號y1...yT（訓練樣本），用MLE（typically implemented in EM）估計參數(shù)：

　　1. N個狀態(tài)的初始概率

　　2. 狀態(tài)轉(zhuǎn)移概率a

　　3. 輸出概率b

　　--------------

　　在語音處理中，一個word由若干phoneme（音素）組成；

　　每個HMM對應于一個word或者音素（phoneme）

　　一個word表示成若干states，每個state表示為一個音素

　　用HMM需要解決3個問題：

　　1） Likelihood：一個HMM生成一串observation序列x的概率 the Forward algorithm>

　　

　　其中，αt（sj）表示HMM在時刻t處于狀態(tài)j，且observation = {x1，。。.，xt}的概率

，

　　aij是狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率，

　　bj（xt）表示在狀態(tài)j的時候生成xt的概率，

　　2）Decoding：給定一串observation序列x，找出最可能從屬的HMM狀態(tài)序列 the Viterbi algorithm>

　　在實際計算中會做剪枝，不是計算每個可能state序列的probability，而是用Viterbi approximation：

　　從時刻1：t，只記錄轉(zhuǎn)移概率最大的state和概率。

　　記Vt（si）為從時刻t-1的所有狀態(tài)轉(zhuǎn)移到時刻t時狀態(tài)為j的最大概率：

　　記為：從時刻t-1的哪個狀態(tài)轉(zhuǎn)移到時刻t時狀態(tài)為j的概率最大；

　　進行Viterbi approximation過程如下：

　　

　　然后根據(jù)記錄的最可能轉(zhuǎn)移狀態(tài)序列進行回溯：

　　

　　3）Training：給定一個observation序列x，訓練出HMM參數(shù)λ = {aij， bij} the EM （Forward-Backward） algorithm

　　這部分我們放到“3. GMM+HMM大法解決語音識別”中和GMM的training一起講

　　---------------------------------------------------------------------
GMM是什么？#e#

　　2. GMM是什么？怎樣用GMM求某一音素（phoneme）的概率？

　　2.1 簡單理解混合高斯模型就是幾個高斯的疊加...e.g. k=3

　　

　　

　　fig2. GMM illustration and the probability of x

　　2.2 GMM for state sequence

　　每個state有一個GMM，包含k個高斯模型參數(shù)。如”hi“（k=3）：

　　PS：sil表示silence（靜音）

　　

　　fig3. use GMM to estimate the probability of a state sequence given observation {o1， o2， o3}

　　其中，每個GMM有一些參數(shù)，就是我們要train的輸出概率參數(shù)

　　

　　fig4. parameters of a GMM

　　怎么求呢？和KMeans類似，如果已知每個點x^n屬于某每類 j 的概率p（j|x^n），則可以估計其參數(shù)：

　　

　　其中

　　只要已知了這些參數(shù)，我們就可以在predict（識別）時在給定input sequence的情況下，計算出一串狀態(tài)轉(zhuǎn)移的概率。如上圖要計算的state sequence 1->2->2概率：

　　

　　fig5. probability of S1->S2->S3 given o1->o2->o3

　　---------------------------------------------------------------------
GMM+HMM大法解決語音識別#e#

　　3. GMM+HMM大法解決語音識別

　　我們獲得observation是語音waveform，以下是一個詞識別全過程：

　　1）將waveform切成等長frames，對每個frame提取特征（e.g. MFCC），

　　2）對每個frame的特征跑GMM，得到每個frame（o_i）屬于每個狀態(tài)的概率b_state（o_i）

　　

　　fig6. complete process from speech frames to a state sequence

　　3）根據(jù)每個單詞的HMM狀態(tài)轉(zhuǎn)移概率a計算每個狀態(tài)sequence生成該frame的概率; 哪個詞的HMM 序列跑出來概率最大，就判斷這段語音屬于該詞

　　宏觀圖：

　　

　　fig7. Speech recognition， a big framework

　　好了，上面說了怎么做識別。那么我們怎樣訓練這個模型以得到每個GMM的參數(shù)和HMM的轉(zhuǎn)移概率什么的呢？

　　①Training the params of GMM

　　GMM參數(shù)：高斯分布參數(shù)：

　　從上面fig4下面的公式我們已經(jīng)可以看出來想求參數(shù)必須要知道P（j|x），即，x屬于第j個高斯的概率。怎么求捏？

　　

　　fig8. bayesian formula of P（ j | x ）

　　根據(jù)上圖 P（j | x），我們需要求P（x|j）和P（j）去估計P（j|x）。

　　這里由于P（x|j）和P（j）都不知道，需要用EM算法迭代估計以最大化P（x） = P（x1）*p（x2）*.。.*P（xn）：

　　A. 初始化（可以用kmeans）得到P（j）

　　B. 迭代

　　E（estimate）-step：根據(jù)當前參數(shù) （means， variances， mixing parameters）估計P（j|x）

　　M（maximization）-step：根據(jù)當前P（j|x）計算GMM參數(shù)（根據(jù)fig4 下面的公式：）

　　
其中

　　②Training the params of HMM

　　前面已經(jīng)有了GMM的training過程。在這一步，我們的目標是：從observation序列中估計HMM參數(shù)λ；

　　假設(shè)狀態(tài)->observation服從單核高斯概率分布：

　　則λ由兩部分組成：

　　

　　HMM訓練過程：迭代

　　E（estimate）-step：給定observation序列，估計時刻t處于狀態(tài)sj的概率

　　M（maximization）-step：根據(jù)重新估計HMM參數(shù)aij.

　　其中，

　　E-step：給定observation序列，估計時刻t處于狀態(tài)sj的概率

　　為了估計，定義： t時刻處于狀態(tài)sj的話，t時刻未來observation的概率。即

　　這個可以遞歸計算：β_t（si）=從狀態(tài) si 轉(zhuǎn)移到其他狀態(tài) sj 的概率aij * 狀態(tài) i 下觀測到x_{t+1}的概率bi（x_{t+1}） * t時刻處于狀態(tài)sj的話{t+1}后observation概率β_{t+1}（sj）

　　即：

　　

　　定義剛才的為state occupation probability，表示給定observation序列，時刻t處于狀態(tài)sj的概率P（S（t）=sj | X，λ）。根據(jù)貝葉斯公式p（A|B，C） = P（A，B|C）/P（B|C），有：

　　

　　由于分子p（A，B|C）為

　　

　　其中，αt（sj）表示HMM在時刻t處于狀態(tài)j，且observation = {x1，。。.，xt}的概率；

　　： t時刻處于狀態(tài)sj的話，t時刻未來observation的概率；

　　且

　　finally，帶入的定義式有：

　　

　　好，終于搞定！對應上面的E-step目標，只要給定了observation和當前HMM參數(shù) λ，我們就可以估計了對吧（*^__^*）

　　M-step：根據(jù)重新估計HMM參數(shù)λ：

　　對于λ中高斯參數(shù)部分，和GMM的M-step是一樣一樣的（只不過這里寫成向量形式）：

　　

　　對于λ中的狀態(tài)轉(zhuǎn)移概率aij，定義C（Si->Sj）為從狀態(tài)Si轉(zhuǎn)到Sj的次數(shù)，有

　　

　　實際計算時，定義每一時刻的轉(zhuǎn)移概率為時刻t從si->sj的概率：

　　

　　那么就有：

　　

　　把HMM的EM迭代過程和要求的參數(shù)寫專業(yè)點，就是這樣的：

　　

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 語音識別 生物識別

評論

相關(guān)推薦

利用MEMS麥克風陣列定位并識別音頻或語音信源的技術(shù)方案

設(shè)計方案 ARM處理器 MEMS STM32F4 語音識別 | 2015-03-23

JavaScript語音識別庫-Julius

視頻 JavaScript 語音識別 Julius | 2015-07-07

談談當前：離線語音識別與在線語音識別的優(yōu)缺點

白嶺 | 2020-02-18

電容、光學、超聲波、手機指紋識別技術(shù)你了解嗎

消費電子生物識別指紋智能手機 | 2023-04-20

大聯(lián)大品佳集團推出基于MediaTek產(chǎn)品的亞馬遜智能物聯(lián)網(wǎng)語音識別方案

物聯(lián)網(wǎng)與傳感器大聯(lián)大品佳 MediaTek 亞馬遜語音識別 | 2022-09-08

基于Infineon SoC藍牙CYW20835之智能遙控器方案

物聯(lián)網(wǎng)與傳感器英飛凌藍牙 BT 遙控器紅外信號傳感器語音識別 2.4g 語音遙控 cyw20835 | 2023-08-02

語音識別在遙控系統(tǒng)中的應用設(shè)計

資源下載語音識別 DTW FED FRED 學習型遙控器 | 2007-04-19

Nuance語音識別技術(shù)

設(shè)計方案語音識別 Nuance 消費電子 | 2015-02-03

生物簽名認證為生物識別市場帶來新機遇

liujt_ic | 2003-04-09

生物識別技術(shù)原理解析

dolphin | 2014-06-12

基于ESP32的語音識別控制AI小夜燈

嵌入式系統(tǒng) 202504 ESP32 語音識別 AI小夜燈 | 2025-04-17

經(jīng)濟高效的AI系統(tǒng)助力語音與圖像識別

智能計算圖像識別語音識別 AI | 2025-02-25

生物識別迎百億市場規(guī)模 “身體密碼”或為安全鑰匙

崔建巧 | 2016-10-27

孤立詞語音識別系統(tǒng)的DSP實現(xiàn)

設(shè)計方案孤立詞 DSP 語音識別 | 2015-03-28

新一代語音識別：可徹底改變車內(nèi)體驗的技術(shù)

汽車電子語音識別生物識別人工智能 | 2024-07-18

基于DTW模型的語音識別

資源下載 DTW模型語音識別 MATLAB | 2007-04-19

指紋芯片F(xiàn)CD4A14的原理及應用

資源下載愛特梅爾公司指紋芯片 FCD4A14 生物識別指紋傳感器 | 2007-02-16

便攜設(shè)備中集成“一直聽”的語音觸發(fā)方案

nakey | 2016-03-09

電視機智能聲控選合系統(tǒng)設(shè)計與實現(xiàn)

資源下載語音識別彩電遙控智能聲控選臺 | 2007-02-16

語音識別及其定點DSP實現(xiàn)

設(shè)計方案語音識別 DSP C語言 | 2015-03-28

基于STM32智能家居系統(tǒng)的設(shè)計與實現(xiàn)

設(shè)計方案 STM32 語音識別服務器智能家居 | 2015-03-21

美光高性能內(nèi)存與存儲，推動 AI 豐富殘障人士生活體驗

網(wǎng)絡(luò)與存儲語音識別生成式AI 機器學習內(nèi)存 | 2023-12-07

PB與CanvasBio合作針對筆記本電腦的生物識別方案

物聯(lián)網(wǎng)與傳感器 PB CanvasBio 筆記本電腦生物識別 | 2022-12-22

多模融合、加速集成,生物識別智能門禁市場發(fā)展擴容

物聯(lián)網(wǎng)與傳感器生物識別智能門禁 | 2023-08-07

艾邁斯歐司朗發(fā)布紅外LED新品，搭載全新IR：6技術(shù)，助力提升安防與生物識別應用效率

安防與國防艾邁斯歐司朗紅外LED IR：6 安防生物識別 | 2024-11-07

本科畢業(yè)設(shè)計：一種基于發(fā)育思想的語音識別系統(tǒng)實現(xiàn)

資源下載語音識別人工智能自主式機器發(fā)育思想自組織映射網(wǎng)絡(luò) 簡單反饋神經(jīng)網(wǎng)絡(luò) | 2007-04-19

4 調(diào)用 Google 語音識別

視頻 Android Wear 圖靈機器人 Google 語音識別 | 2015-07-07

焦點

推薦視頻

技術(shù)專區(qū)

主站蜘蛛池模板：黎川县| 桃园市| 钟山县| 栾城县| 巴塘县| 齐齐哈尔市| 融水| 敦化市| 天台县| 松阳县| 永顺县| 封开县| 凯里市| 乐山市| 天门市| 七台河市| 南康市| 乃东县| 内黄县| 绍兴县| 邳州市| 正定县| 全州县| 京山县| 九寨沟县| 永福县| 贵德县| 保靖县| 黄浦区| 潮安县| 镇沅| 福州市| 伊宁市| 固阳县| 什邡市| 重庆市| 湖口县| 沂水县| 西青区| 伽师县| 安新县|

<ul id="wc22c"><center id="wc22c"></center></ul>