音頻編碼和解碼原理
在采用子帶編碼時,利用了聽覺的掩蔽效應進行處理。它對一些子帶信號予以刪除或大量減少比特數目,可明顯壓縮傳輸數據總量。比如,不存在信號頻率分量的子帶,被噪聲掩蔽的信號頻率的子帶,被鄰近強信號掩蔽的信號頻率分量子帶等,都可進行刪除處理。另外,全系統的傳輸信息量與信號的頻帶范圍、動態范圍等均有關系,而動態范圍則決定于量化比特數,若對信號引入合理的比特數,可使不同子帶內按需要給以不同的比特數,也可壓縮其信息量。
二、MPEG-1音頻編碼方框圖
1、MPEG-1音頻編碼的依據
MPEG-1音頻壓縮編碼標準采用了心理學算法。利用感知模型刪去那些聽覺不靈敏的聲音數據,而使重建的聲音質量無明顯下降。它采用子帶編碼技術,根據心理聲學模型取得不同子帶的聽覺掩蔽閾值;對各子帶的取樣值進行動態量化。它根據不同頻段上大音量信號所引起的小音量信號掩蔽閾值的變化規律,對不同頻段給以不同的量化步長,以便保留主要信號,而舍棄對聽覺效果影響很小的成分,經過數據壓縮,可取得合理的比特流,將原來大約1.5Mbit/s的聲音傳輸碼率減少到0.3Mbit/s,即壓縮率可達到1/5。
2、編碼流程
圖2.3.2是基于MUSICAM(掩蔽模式通用子帶編碼和多路復用)的MPEG-1音頻壓縮編碼方框圖。輸入信號是經過取樣的二進制PCM數字音頻信號,取樣頻率可以取44.1KHz、48KHz或32KHz,該音頻數碼信號的碼值與原來采樣信號的幅度、頻率成正比。
數字音頻信號首先進入數字濾波器組,它被分成等帶寬的32個子頻帶,可由數字濾波器輸出32個子帶數據信號。這種處理方法與圖像編碼信號進行DCT變換的作用相似,但不是像圖像信號那樣分為64種余弦頻率信息,這里僅分成32個子帶,即將音頻數據流改為32種頻率的組合。聲音的分解力低于圖像,這種處理方法是可行的。然后,對32個子帶的伴音數據進行再量化,以便再壓縮數據量。對于各個子頻帶的量化步長不相同,量化步長是根據人耳的聽覺閾值和掩蔽效應而確定的。經過量化處理的已壓縮數據,保留了伴音信息的主體部分,而舍棄了聽覺效果影響較小的伴音信息。
進入編碼系統的輸入信號,分流部分信號送到并列的1024點快速傅利葉變換器(FFT)進行變換,它檢測輸入信號每一個瞬間取樣點在主頻譜分量頻域的分布的強度,經變換的信號送到心理聲學模型控制單元。根據聽覺心理聲學測量統計結果,可以歸納出一個心理聲學控制對照表格,并按照此表格制成控制單元,而單元電路可以集中地反映出人耳的閾值特性和掩蔽特性。
經過量化的32個子頻帶數據已經被壓縮,還要加上比例因子、位分配信息等輔助信息,共同加到1位流格式化單元,編碼成為兩個層次的伴音編碼信號。它既含有32個子頻帶的伴音數碼,又帶有這些數碼所對應的位分配數據和不同頻帶數據的強弱比例因子。待將來數據解碼時,可根據各子頻帶的數據恢復聲音信號,以及壓縮時碼位分配和強弱比例情況,在進行反量化時,參照壓縮時的程序進行還原。
可見,伴音的壓縮編碼和圖像處理一樣,也要經過變換、量化、碼位壓縮等處理過程,它運用了許多數學模型和心理聽覺測量的統計數據,對32個子頻帶和各個層次信號的處理也各有不相同的取樣速率。實際的心理聽覺模型和適時處理控制過程十分復雜。這些算法細節都已按硬件方式被固化在解碼芯片中,這些內容不能再改變。
3、伴音與圖像的同步
圖像和聲音信號的壓縮方法有許多不同,圖像數據量又遠遠大于聲音數據量,兩者傳送的數據碼率大不相同。每傳送14~15個視頻數據包才傳送1個音頻數據包,而播放聲音和圖像的內容又必須作到良好同步,否則將無法保證視聽統一的效果。
為了作到聲圖同步,MPEG-1采用了獨立的系統時鐘(簡稱為STC)作為編碼的參照基準,并將圖像和聲音的數據分為許多播放單元。例如,將圖像分為若干幀,將聲音分為若干段落。在數據編碼時,在每個播放單元前面加置一個展示時標(PTS),或者加置一個解碼時標(DTS)。當這些時標出現時,表示前一個播放單元已經結束,一個新的圖像和聲音播放單元立即開始。在播放相互對應的同一圖像單元和聲音單元時,可實現互相同步。
為了使整個系統在時鐘在編碼和重放時,聲圖有共同的時鐘基準,又引入系統參考時鐘SCR的概念。系統參考時鐘是一個實時時鐘,其數值代表聲圖的實際播放時間,用它作為參照基準,以保證聲圖信號的傳輸時間保持一致。實時時鐘SCR必須與生活中的真實時間一致,要求它的準確度很高,否則可能發生聲音和圖像都播快或播慢的現象。為了使SCR時間基準穩定、準確,MPEG-1采用了系統時鐘頻率SCF,以它作為定時信息的參照基礎。SCF系統時鐘的頻率是90KHz,頻率誤差為90KHz±4.5KHz。聲圖信號以SCF為統一的基準,其它定時信號SCR、PTS、DTS也是以它為基礎。
三、其它MPEG標準的音頻編碼器
1、MPEG-2音頻編碼方框圖
MPEG-1是處理雙聲道立體聲信號,而MPEG-2是處理5聲道(或7聲道)環繞立體聲信號,它的重放效果更加逼真。
圖2.3.3是MPEG-2音頻編碼方框圖。它輸入互相獨立的5聲道音頻信號,有前置左、右主聲道(L、R),前置中央聲道(C),還有后置左、右環繞聲道(LS、RS)。各聲源經過模-數轉化后,首先進入子帶濾波器,每一聲道都要分割為32個子頻帶,各子帶的帶寬均為750Hz。為了兼容MPEG-1、普通雙聲道立體聲和環繞模擬立體聲等編碼方式,原來按MPEG-1編碼的立體聲道能夠擴展為多聲道,應當包括所有5聲道的信息,為此設置了矩
評論