新聞中心

        EEPW首頁 > 嵌入式系統 > 設計應用 > 基于聽覺特性的聲紋識別系統的研究

        基于聽覺特性的聲紋識別系統的研究

        作者: 時間:2016-09-12 來源:網絡 收藏

        技術(說話人識別技術)是一種生物認證技術,也是一項根據說話人波形反映其生理和行為特征的語音參數來自動識別測試的說話人身份的技術。

        本文引用地址:http://www.104case.com/article/201609/303780.htm

        在未來的生活中,說話人識別將會以它自身獨特的便捷性,實惠性和精準性受人矚目,并且逐漸普及在生物認證技術領域。

        說話人識別首要錄制聲音樣本和提取語音特征參數,再把它們保存在數據庫中,最后把準備驗證的聲音和數據庫中的語音特征相匹配,利用匹配結果相似度來獲得說話人的身份。

        1 常用語音庫

        目前,世界各國都很重視建設語音數據庫。最具代表的是美國建立的LDC(Linguistic Data Consortium)和OGI(Oregon Graduate Inst itute),以及歐洲國家建立的ELRA(European Language Resollces Association)組織。這些組織都是長期研究語音信號處理技術的。他們開發出規模巨大的語音研究資源。

        第一個高質、大容量、高可信度的聲音數據庫是YOHO數據庫。表1是YOHO說話人數據庫。它是經過數字化的數據庫,其輸入特征參照了第三代安全終端單位(STU—III)的安全語音電話。設計了與文本有關的說話人確認系統,此系統是會提示用戶說什么話,在YOHO中使用的是:“合成塊”短語的語法。

        這個數據庫的環境是“辦公環境”。另一方面,它還滿足在噪聲的環境和遠距離麥克風的條件下對語音做測試。而這些均滿足了消費者的消費需要。

        國內,浙江大學CCNT實驗室提出和建立了面向移動通信環境的說話人識別語音庫SRMC(speaker recognition in mobile communicatio n)。

        生活中,如果要采集語音的話,就會常常使用計算機,麥克風,還有錄音功能電話機,此外還要有相應的調制解調器。這些錄音設備都很普通且常見。

        我們該怎樣去評價和使用一個標準的語音數據庫?我們需要對評價下個定義。如評價的細節、訓練和測試數據集的分割。在特定條件(如訓練和測試采用不同的麥克風)下進行系統性能評價,需要有足夠的錄音數據。

        基于聽覺特性的聲紋識別系統的研究

        2 系統

        2.1 實驗設計

        由于實驗條件的限制,本課題的語音庫是自己創建的,實驗用來訓練和測試的說話人錄音,大部分是班級同學和同一實驗室的同學。在這個實驗中我們使用的是普通話,我們中每一個人說話速度和音量都處于正常情況。實驗語音是在兩天時間內采集得到的。采集環境是實驗室,一共有十個同學進行錄音。男女比例是一比一。在本實驗中,我們盡量保持實驗室環境安靜,假設我們采集的聲音都是純音,沒有噪音。實驗中用到的錄音軟件是cool edit 2000,用的錄音設備是普通的立體聲麥克風和COMPAQ筆記本電腦,我們把采樣頻率定為8000Hz,每一幀的幀長定為256個點,幀之間的距離定為80點,用16比特量化方式進行量化。采樣之后,得到了標準化的數字語音,這個實驗中,用到的語料是阿拉伯數字。包含之間的數字,每個人的語音是1個阿拉伯數字,每個人每一天要有9次朗讀機會。我們把獲得的所有的數據樣本存儲在計算機的硬盤中,拿出第一天的語音來進行訓練使用,把第二天的語音用來做測試。每一個數字錄音看做一個單位來進行測試。本文的實驗中利用阿拉伯數字1~9的語音單元構成的隱馬爾可夫模型。建市了與文本有關的身份確認系統。如圖1所示。

        基于聽覺特性的聲紋識別系統的研究

        首先錄制語音,采集語音,建立語音模板庫,在實驗室環境下,采集參加訓練和識別的說話人語音。分別建立兩個數據庫。第一天錄音存儲為Xi,第二天錄音存儲為Ri。分別存儲在計算機的硬盤中的錄音DIY資料文件夾下。語音庫是用來存儲說話人的語音。當需要識別時可以用來識別說話人身份。隨后將語音送至預處理功能模塊。

        其次對數字化語音進行預處理,此模塊的任務語音信號的數字化處理,把處理過的語音拿來端點檢測。預處理過程包含去除語音信號的噪聲、對信號進行預加重、加窗、分幀等。經過加窗這一步驟之后,得到了一幀幀的語音序列,然后進行預加重處理。把信號做預加重處理是為了把信號中的高頻部分提取出來,這樣做整個頻譜就會變得平坦起來,然后在全部的頻帶中一直保持這種平坦,這個時候我們可以用相同的信噪比求得頻譜。這樣都完成之后就可以頻譜分析了。預加重濾波器的形式如:

        H(z)=1-μz-1 (1)

        式(1)中,μ的值在本實驗中選取0.937 5。引進了預加重參數μ,可以看出,有利于提高說話人的識別率。表2中可以看到不同預加重參數下的識別率。

        基于聽覺特性的聲紋識別系統的研究

        由表2可知,μ值改變,識別率也在改變。μ=0.95時,識別率最高。本實驗選取的預加重參數值在0.93~0.95之間。

        接下來是對語音信號分幀加窗。因為語音信號不是平穩的信號,假定語音信號在10~30 ms之間是平穩的。為了得到短時的語音信號,對語音信號進行加窗計算。本課題主要選用的是漢明窗。漢明窗顯示了一個好的窗口的優點。其在時域中波形細節不容易丟失,且能防止泄露。漢明窗函數式:

        基于聽覺特性的聲紋識別系統的研究

        經過前面的一些處理之后,采集的語音信號就被分割成一幀幀的短時的加窗信號,把這些信號假設成隨機平穩的信號,然后提取語音特征參數。

        提取出來的語音參數,對其端點檢測。此時,先設置門限,依據短時能量和過零率的公式,求出來短時能量值和過零率值。然后用手工方法在MATLAB上去除語音信號中的靜音段和噪音語段來進行端點檢測。

        對系統的輸入信號進行判斷,準確地找到語音信號的起始點和終止點的位置。除去語音中的雜亂語音段,只有這樣才能采集到真正的語音數據,減少數據冗余和運算量,并減少處理時間。如表3所示。在這里本課題用的是雙門限法。將短時平均能量和短時平均過零率結合起來,進行端點檢測,可以很好的檢測語音是否開始和結束。


        上一頁 1 2 下一頁

        評論


        技術專區

        關閉
        主站蜘蛛池模板: 清苑县| 年辖:市辖区| 博乐市| 丹寨县| 临桂县| 阳曲县| 安仁县| 科尔| 平原县| 米泉市| 桦甸市| 仁寿县| 奎屯市| 梨树县| 建平县| 宁陵县| 曲阜市| 富民县| 河池市| 靖边县| 库尔勒市| 沂水县| 二连浩特市| 永安市| 和林格尔县| 海宁市| 宝坻区| 田东县| 辽阳市| 渝中区| 大石桥市| 炎陵县| 喀喇沁旗| 博白县| 凤翔县| 丰县| 常山县| 涟源市| 韶关市| 揭阳市| 沙坪坝区|