基于嵌入式系統的語音口令識別系統的實現
摘要:語音口令識別是信息處理的一個重要研究方向,本文給出一種基于嵌入式系統的語音口令識別系統的設計方案,硬件系統的核心芯片是嵌入式微處理器,語音口令識別算法采用連續隱馬爾克夫模型。實驗結果表明,將語音識別系統與嵌入式系統相結合,可以使語音口令識別系統廣泛應用于便攜式設備中。
關鍵詞:語音口令識別;嵌入式系統:隱馬爾克夫模型
0 引言
隨著計算機技術和信息技術的迅速發展,語音口令識別已經成為了人機交互的一個重要方式之一。語音口令識別系統將根據人發出的聲音、音節或短語給出響應,如通過語音口令控制一些執行機構、控制家用電器的運行或做出回答等。在數字信號處理芯片上已經實現了語音口令識別系統或語音口令識別系統的部分功能,然而隨著嵌入式微處理器處理能力的大幅度提高,計算量大的語音口令識別算法已經能夠通過嵌入式微處理器來完成,將語音口令識別系統與嵌入式系統相結合,發揮語音識別系統的潛力,使語音識別系統能夠廣泛應用于便攜式設備中。
采用隱馬爾克夫模型(Hidden Markov Model,HMM)描述語音信號的非平穩性和局部平穩性,HMM中的狀態與語音信號的某個平穩段相對應,平穩段之間以轉移概率相聯系。由于HMM建模對語音信號長度和模型的混合度的要求都比較低,因此在現有的非特定人語音口令識別系
統中,多采用狀態輸出具有連續概率分布的連續隱馬爾可夫模型(Continuous Density Hidden Markov Model,CDHMM)。
論文給出一種基于嵌入式系統的語音口令識別系統的設計方案,硬件系統的核心芯片是嵌入式微處理器,語音口令識別算法采用CDHMM。語音口令首先經過預處理,提取MFCC(Mel-Frequency Ceptral Coefficients)特征參數,然后建立此口令的CDHMM模型,把所有語音口令的模型放在模型庫中,在識別階段,通過概率輸出評分,取評分最大的一個作為識別出的口令。將語音識別系統與嵌入式系統相結合,可以使語音口令識別系統廣泛應用于便攜式設備中。
1 硬件電路的設計和工作原理
基于嵌入式系統的語音口令識別系統需要有接收語音信號的輸入芯片配合麥克風實現將模擬語音信號轉換成數字信號的功能,然后由嵌入式微處理器對輸入的語音口令信號進行處理。完成語音口令信號輸入功能的芯片采用的是PHILIPS公司的低功耗芯片UDAl341TS,供電電源電壓為3V,該音頻處理芯片由模數/數模轉換(ADC)、控制邏輯電路、可編程增益放大器(PGA)和數字自動增益控制器(DAGC)以及數字信號處理器等部分組成,能進行數字語音處理。
芯片UDAl341TS采用標準的內部集成電路聲音總線IIS(Inter IC Sound Bus),該總線是由PHILIPS等公司共同提出的數字音頻總線協議,專門用于音頻設備之間的數據傳輸,目前很多音頻芯片和微處理器都提供了對IIS總線的支持。
IIS總線有三根信號線,分別是位時鐘信號BCK(Bit Clock)、字選擇控制信號WS(Word Select)和串行數據信號Data,由主設備提供串行時鐘信號和字選擇控制信號,IIS總線的時序如圖1所示。
WS也稱為幀時鐘信號,該信號的電平為低電平時,傳輸的輸入音頻數據信號是左聲道的音頻數據信號;信號WS的電平為高電平時,傳輸的輸入音頻數據信號是右聲道的音頻數據信號。BCK對應著輸入音頻數據信號的每一位音頻數據,其頻率為2×采樣頻率×每個采樣值的位數。
與BCK同步的串行音頻數據信號采用補碼的形式傳輸,傳輸順序是高位先傳輸。IIS總線格式的信號無論有多少位有效數據,數據的最高位MSB總是出現在WS信號改變(也就是傳輸一幀數據信號開始)后的第2個串行數據信號SCLK脈沖位置。
評論