新聞中心

        EEPW首頁 > 設計應用 > 3G 手機語音識別應用中DSP的選擇策略

        3G 手機語音識別應用中DSP的選擇策略

        作者: 時間:2010-03-18 來源:網絡 收藏

          隨著技術的進步,計算能力更強、功耗更低和體積更小的已經出現,使上植入更精確更復雜的自動(ASR)功能成為可能。目前,基本ASR可以分成三大類:1. 語音-文本轉換(語音輸入);2. 講者識別;3. 語音命令控制(語音控制)。
          
          這三類功能包含了所需的眾多ASR性能。語音-文本轉換的典型實例是語音撥號和電子郵件聽寫。講者識別功能可以通過安全地讀出存儲器中的個人數據,從而滿足信用卡定購和銀行服務等保密性高的需要。語音命令控制功能包括連接語音擴展標記語言(VXML)網站內容的語音接口,它支持財經服務與目錄助理等業務。目前VXML被用于規范網站內容的語音標簽。

          的兩種方法

          的ASR設計可分為兩類,即以終端為中心和以客戶/服務器為中心的應用。如圖1所示為以終端為中心的設計方法,3G(終端)執行整個語音識別過程并送出識別結果。在圖2所示的客戶/服務器方法中,終端只是執行預處理特征提取,然后通過一個誤碼受保護的數據信道將這些參數發送給中心服務器,中心服務器最終完成語音識別。如果采用以客戶/服務器為中心的設計方法,3G手機應使用數據信道而非移動信道來將語音發送給服務器進行識別,因為移動信道所用的低速率語音編碼會嚴重影響語音識別的性能。

          各種ASR系統的差異主要體現在詞匯量上。一個簡單的網絡設備可能只需要16字的詞庫就能實現所要求的語音識別功能,而3G移動手機則需要更大的專業詞庫。這些詞匯可以跟講者相關(訓練語音識別設備使之熟悉用戶的聲音特征)或跟講者無關(語音識別設備可以識別任何人的聲音),的計算負荷就隨著詞匯量和訓練數據的增加而增大。

          例如,根據隱性馬爾可夫模型(HMM)可以分析一個典型的跟講者無關的100條命令識別的應用實例。假設HMM模型從左到右沒有跳躍地順序擺放,共有6個狀態、5個具有對角協方差的混合高斯分布,包含39個特征(13嘜-頻率對數系數或MFCC,及其一階和二階差分),具有16位精度,那么,HMM聲學模型的大小就是100×5×5×(39+2)×2=240kB。

          為了實現輸入語音樣本差分、窗口截獲、MFCC抽取、概率計算和維特比搜索等運算的實時性,典型情況下需要消耗DSP的1千萬個乘法-累加周期(MMAC)。對于連續語音識別來說,上千個三音素模型和多種語法模型需要更多的存儲空間,也需要更快的DSP處理速度。

          因此,移動電話中ASR系統的成敗很大程度上取決于DSP的功能和設計。第三代系統本身就需要比第二代系統更強性能的DSP,而增加ASR功能就對DSP提出了更高的要求。從結構角度看,對DSP性能的要求是處理速度快、功耗低和代碼密度高。

          采用高速DSP是關鍵

          由于系統要實時對語音進行處理和取樣,因此語音識別系統需要具有巨大的計算能力。下面的數字和計算假設采用的是圍繞終端的設計方法。如果將DSP計算資源的20%分配給一個10MMAC的語音識別系統使用,那么就需要一個具有50MMAC的DSP才能滿足這一功能需要,并可提供足夠的空間執行3G手機所需的其它DSP任務,如處理軟貓。如果采用較慢的DSP,如25MMAC的DSP,那么詞匯表中的命令數量就要減半,或減少HMM參數,這樣會降低整個系統性能。

          DSP的速度決定了語音識別系統的復雜性和性能。舉例來說,如果一個基本的跟講者無關的連續語音識別系統需要100MMAC,DSP計算資源的50%用于滿足3G手機的其它DSP任務的需求,那么DSP的處理速度就需要達到200MMAC。


        上一頁 1 2 3 下一頁

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 清远市| 甘德县| 大埔县| 昭觉县| 郑州市| 都匀市| 名山县| 民和| 南城县| 称多县| 庆元县| 武陟县| 蒙山县| 福海县| 饶河县| 丰城市| 通许县| 陆丰市| 长葛市| 临安市| 茶陵县| 吴江市| 建平县| 塔城市| 北辰区| 青铜峡市| 南木林县| 神农架林区| 英德市| 武义县| 阿拉尔市| 中牟县| 马公市| 东辽县| 南溪县| 星座| 孙吴县| 桐庐县| 翁源县| 宾川县| 申扎县|