新聞中心

EEPW首頁 > 嵌入式系統 > 設計應用 > DSP嵌入式說話人識別系統的設計與實現

DSP嵌入式說話人識別系統的設計與實現

作者：時間：2009-12-28 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

語音處理DSP采用TI公司的TMS320C6713芯片，該芯片實現浮點運算，最高時鐘頻率225 MHz，使用該芯片外部存儲器接口可實現對外部存儲器(SDRAM)數據傳輸和程序存儲器(FLASH ROM)進行程序讀寫；依靠JTAG接口電路通過仿真器進行仿真調試，實現與主機數據交換；通過片內外設McBSP完成串行數據的接收和發送，實現對音頻處理模塊的控制等工作。
FLASH ROM最大可提供512 KB空間，通常為前256 KB可用。SDRAM最大容量為16 MB，為該系統提供較大的數據存儲空間。CPLD為存儲器的擴展實現邏輯編碼。電源為TPS54310芯片，可為系統提供3．3 V和1．26 V兩種電壓。
1．2 選擇說話人
該系統要訓練10個人的語音，每個人的語音存放在FLASH ROM的不同位置。在訓練的開始階段，系統需確定當前訓練者的身份，以便對訓練完成后說話者模型參數存儲位置有準確的判斷。對當前訓練者身份的選擇由系統中的4個Switch實現。若把每個Switch的開關兩種狀態看成是二進制數的0，1，則最終可形成16種組合，代表16個人。該系統選取前10個組合。
1．3 AIC23語音采集
考慮到系統的實用性，語音的輸入由mic in接口輸入。語音采集若設為雙聲道，則采集的左右聲道數據差別不大，對識別沒有太大的幫助，而且采集到的語音會占用太大存儲器空間，故采用單聲道采樣；對于采樣精度要求，TLV320AIC23可實現8～96 kHz，16 b，20 b，24 b，32 b，的不同采樣，隨著采樣頻率的提高，采樣間隔將相應的縮短，要求更大的內存空間和更長的處理時間，實驗表明，采樣率由16 kHz下降到8 kHz，所造成的識別率的微乎其微，但是可以節省50％的動態存儲空間，并可減少大量的運算。對于采樣位數，16 b精度已能滿足該系統要求，故采樣精度設為8 kHz，16 b采樣。
1．4 數據的存儲
由TLV320AIC23獲得的語音信號的數據，只有賦值給相應的數組，才能在接下來的算法中有所應用。為此在SDRAM中定義一片數組存儲區域。對于數組大小及類型的選擇基于以下兩點：
(1)數組大小選擇。該系統算法中包含訓練和識別兩個內容。語音信號的訓練需要大量的數據才能準確的提取語音的特征參量。該系統采用8 kHz采樣率的10 s的語音信號，所需的數組空間大小為80 000個數據單位；語音信號的識別要求快速性，該系統采用時間較短的8 kHz 3 s語音信號，所需數組空間大小為30 000個數據單位，為了減少數據空間，系統設定為與訓練數組共用前30 000個數據單位的空間。
(2)數組類型為浮點型，由于設定的采樣格式是16 b采樣，而采樣后數據類型是Uint32，語音數據位于低16位，所以賦值過程中取低16位數據賦值給數組。
1．5 模型參數存入與參數調出
將模型參數存入FLASH ROM的目的是保存訓練所得的參數，以供識別時調用。訓練可能用于多次識別，或者訓練和識別可能處于不同的時間地點，所以，保存參數的存儲器選定為具有掉電時數據不丟失特點的FLASH ROM。每個說話者語音參數代表一個說話者身份，所以每個說話者模型參數應存儲在FLASHROM中一個確定的位置。為此，該系統在FLASHROM中分配了10塊的區域，每個說話者模型參數占有一塊特定的區域。
在FLASH ROM中存人數據格式為32 b無符號整數。而訓練得到的是浮點型的數據。這就要求在數據存入之前將浮點數轉換為32 b無符號類型的整數，假設要轉換的數據為float x[M][N]則轉換方法如下：
(1)x[M][N]歸一化；
(2)對x[M][N]乘以一常數K得到有符號整型的數組y[M][N]，即：
y[M][N]=x[M][N]×K (1)
(3)屏蔽第32位符號位，得到32 b無符號類型的整數數組。方法如下：
z[i][j]=y[i][j]0x7FFFFFFF (2)
(4)將z[i][j]存入FLASH ROM。
通過統計實驗數據發現歸一化后數據的范圍為10-5～1，故K選擇為108，既可以實現較大精度的轉化，又不會影響第31位的數值。轉換得到的有符號整型數組y[M][N]范圍為-108～108，在存儲器中正數為原碼表示，負數為補碼表示，通過計算發現，該范圍的正數第31位為0，負數第31位為1，所以，上述第(3)步，將有符號數轉換為無符號數后，數值的正負改為使用第31位標識。在識別階段，要將說話者的GMM參數依次從FLASH ROM中讀出，逐個與待識別者語音的MFCC參數比較，求最大似然值。參數調出過程與以上存入過程相反。 linux操作系統文章專題:linux操作系統詳解（linux不再難懂）

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞：設計實現系統識別 嵌入式 說話 DSP

焦點

更多>>

技術專區

關閉

新聞中心

DSP嵌入式說話人識別系統的設計與實現

評論

相關推薦

技術專區