新聞中心

        EEPW首頁 > 消費電子 > 設計應用 > 基于DTW的編碼域說話人識別研究

        基于DTW的編碼域說話人識別研究

        作者: 時間:2010-10-14 來源:網絡 收藏



         本文選擇G.729編碼幀中第一子幀的LSP(1)參數的反余弦LSF及由其轉換得到的LPC、LPCC參數作為聲道特征參數。
         參考文獻[1]發現識別特征加入G.729壓縮幀中的語音增益參數,說話人識別性能發生了下降。去除G.729壓縮碼流特征中的增益參數GA1、GB1、GA2、GB2,結果發現,當采用了去除增益參數的特征矢量方案X=(L0,L1,L2,L3,P1,P0,P2),識別性能得到了提高,所以本文最終采用的G.729壓縮碼流特征為X=(L0,L1,L2,L3,P1,P0,P2),共7維。
        2 動態時間規整(DTW)識別算法
         動態時間規整DTW(Dynamic Time Warping)是把時間規整和距離測度計算結合起來的一種非線性規整技術。該算法基于動態規劃思想,解決了發音長短不一的模版匹配問題。
         算法原理:假設測試語音和參考語音分別用R和T表示,為了比較它們之間的相似度,可以計算它們之間的距離D[T,R],距離越小則相似度越高。具體實現中,先對語音進行預處理,再把R和T按相同時間間隔劃分成幀系列:

        然后采用動態規劃進行識別。如圖2所示。

        本文引用地址:http://www.104case.com/article/166450.htm

        把測試模版的各個幀號n=1,…,N在一個二維直角坐標系的橫軸上標出,把參考模版的各幀號m=1,…,M在縱軸上標出,通過這些表示幀號的整數坐標畫出的橫縱線即可形成一個網格,網格中的每一個交叉點(n,m)表示測試模版中某一幀與訓練模版中某一幀的交叉點。動態規劃算法可以歸結為尋找一條通過此網格中若干格點的路徑,路徑通過的格點即為測試和參考模版中距離計算的幀號。

         整個算法主要歸結為計算測試幀和參考幀間的相似度及所選路徑的矢量距離累加。
         識別流程如圖3所示。



        關鍵詞: 編解碼器 音頻

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 大田县| 黑河市| 南乐县| 上思县| 萝北县| 平远县| 云安县| 临清市| 丰城市| 南投县| 喜德县| 广昌县| 临武县| 敦化市| 出国| 双桥区| 宁阳县| 本溪市| 清新县| 东乌珠穆沁旗| 青浦区| 离岛区| 巴彦淖尔市| 临西县| 常山县| 昆明市| 平泉县| 丹阳市| 宁国市| 邵东县| 连平县| 西充县| 新津县| 兴仁县| 阳西县| 舟山市| 珲春市| 且末县| 华阴市| 平原县| 繁昌县|