新聞中心

        EEPW首頁 > 智能計算 > 設計應用 > 基于聯合損失函數的語音增強深度學習算法

        基于聯合損失函數的語音增強深度學習算法

        作者:楊玲玲(河南工業貿易職業學院信息工程學院,鄭州 450064) 時間:2023-07-06 來源:電子產品世界 收藏
        編者按:針對損失函數計算過程加入關于人耳聽覺數據的基礎上,設計了一種聯合損失函數的語音增強深度學習算法。研究結果表明:本文設計的混合損失函數實現增強語音質量的明顯優化。加入注意力機制后能夠促進背景噪音的進一步減弱,從而獲得更高可懂度。綜合運用聯合損失函數并融合注意力機制后,可以使神經網絡獲得更優質量增強語音。利用注意力機制提取特征參數以及結合聯合損失函數進行神經網絡優化能夠促進增強語音質量的提升并達到更高的可懂度。

        DNN 根據獲取的語音特征對學習目標參數進行準確估計,目前已被廣泛應用于的研究中[1-2]。各類聲學特征也對方面存在差異。根據傳統語音特征進行分析并不能充分反饋語音內部信息,也不能獲得音幀和幀快速轉換的結果,因此該模型并不能準確預測時頻掩蔽結果,導致實際性能較差[3-4]。在背景噪聲濾除方面,時頻掩模值發揮著關鍵作用,以常規時頻掩模值進行處理時并未針對語音相位進行分析,語音相位譜則對改善語音可懂性具有關鍵作用[5]

        本文引用地址:http://www.104case.com/article/202307/448398.htm

        根據上述研究結果,本文優化了以語音增強實現的網絡模型與損失函數[6]。為確保代價函數能夠根據人耳感知特點開展分析過程,在上述基礎上設計了一種。針對損失函數計算過程加入關于人耳的數據。

        1

        進行深度學習時,需要利用均方誤差損失函數(MSE)對神經網絡實施優化處理,而MSE 只對增強語音與純凈語音誤差進行簡單數據分析,并未考慮誤差正負因素的影響,也未加入人耳感知的信號。此時只以MSE 構建損失函數不能確保增強語音達到理想的算法處理效果[7]。

        采用頻域加權分段的信噪分析方法可以對語音可懂度進行預測。以下為頻域加權分段信噪比表達式:

        1688652699106392.png

        (1)

        式中,L 表示時頻信號幀數,K 表示頻帶數,x(I,k)是第 l 幀第 k 個頻帶中包含的純凈語音信號幅度,image.png屬于第 l 幀第 k 個頻帶包含噪聲語音的幅度譜,W(I,k)為作用于各時頻單元幅度譜的感知權重系數。

        本文從語音信噪比特征出發,對以上函數實施動態結合,由此得到聯合優化代價函數。建立了動態系數:

        a(I,k)=1688652836916519.png   (2)

        上述系數與時頻單元信噪比存在直接關聯,SNR(l,k) 表示第l 幀第k 個頻帶對應的信噪比數據,同時根據各時頻單元信噪比獲得相應的動態系數,處于較高信噪比條件下時,動態系數接近1。

        在聯合代價函數中融合了人耳心理聲學感知的內容[8],以此訓練網絡來實現性能優化的目標,在確保提升話音質量的前提下使增強話音具備更高可懂度。

        2 基于的語音增強算法

        以聯合損失函數建立語音增強算法經多次重復訓練后,能夠從含噪語音幅度譜內獲得估計增強語音幅度譜。圖1給出了系統框圖。

        image.png

        圖1 基于聯合損失函數的語音增強算法系統框圖

        時頻掩蔽因素是對神經網絡產生影響而引起語音增強性能差異的重要條件,采用傳統學習方法進行處理時只需對語音幅度進行分析。確定混合特征參數與學習目標后,再對神經網絡開展輸入、輸出訓練,同時利用最小均方誤差優化網絡算法。再以BP 算法反向傳遞方式完成網絡參數的修正。從每次訓練的結果中選擇最優性能的網絡模型進行記錄后建立測試網絡模型。

        本文選擇聯合損失函數對兩者差異進行評價,記錄最優性能的網絡模型參數。進行測試時,先將含噪語音幅度譜加入經過訓練的模型內,之后通過模型對增強語音幅度譜進行預測,最后以語音相位參數完成信號重構。

        3 實驗結果分析

        3.1 實驗數據的選取

        以上語音數據都是由IEEE 語音數據庫提供,之后從NOISEX-92 噪聲庫內提取Pink、Factory 與White 三種噪聲信號,這些信號保持一致頻率。按照同樣信噪比把剩余50 條純凈語音與噪聲后半段進行混合后建立測試集。

        本文設定語音頻率為16 kHz,并以語音幅度譜作為輸入語音特征。各項網絡參數見表1。

        1688653008963247.png

        3.2 對比實驗分析

        為了對本文建立的聯合損失函數與自注意力機制進行有效性驗證,構建得到表2 的對比算法。

        1688653107817671.png

        從表3~5 中可以看到各噪聲條件下的PESQ 值。其中,表3 顯示,信噪比等于-5dB 的情況下,根據算法1 與2 測試結果可以發現,在各類噪聲條件下,PESQ值提升均值達到0.13,同時STOI 值提升了0.01 的均值水平。比較算法2 與3 可以發現,PESQ 值提升了0.07,STOI 提升了0.01。

        1688653179727558.png

        表4 顯示,帶噪語音信噪比等于0 dB 的條件下,根據算法1 與2 可以發現,各噪聲下的PESQ 值都提升了0.11,此時STOI 值提升0.02。比較算法2 與3 可以發現,PESQ 值提升0.09,STOI 提升0.01。

        1688653246347242.png

        表5 顯示,帶噪語音信噪比等于5 dB 的情況下,比較算法1 與2 可以發現,各噪聲下的PESQ 值提升達到0.13 的均值,STOI 值提升了0.01。根據算法2 與3的比較結果可知,PESQ 值提升0.07,STOI 提升0.01。

        1688653296941702.png

        綜合分析表3~5 得到下述結果:

        1)通過對比算法1 與2 測試結果得到:當噪聲與信噪比都不同的情況下,以聯合損失函數實現的增強語音PESQ 值提高0.12,STOI 提高0.01。根據算法1 與2 可知,本文設計的混合損失函數實現增強語音質量的明顯優化。

        2)對比算法2 與3 結果可以發現,為神經網絡模型設置注意力機制后,可以使增強語音PESQ 值提高0.08,STOI 提高0.01。同時根據算法2 與3 結果可以推斷,加入注意力機制后能夠促進背景噪音的進一步減弱,從而獲得更高可懂度。

        3)比較算法1 與3 結果可知:以聯合損失函數對神經網絡開展訓練時,同時加入自注意力機制來分析理神經網絡特征的情況下能夠實現增強語音質量的顯著改善,此時PESQ 值提升0.2,STOI 提升0.03。

        4 結束語

        1)本文設計的混合損失函數實現增強語音質量的明顯優化。加入注意力機制后能夠促進背景噪音的進一步減弱,從而獲得更高可懂度。

        2)綜合運用聯合損失函數并融合注意力機制后,可以使神經網絡獲得更優質量增強語音。利用注意力機制提取特征參數以及結合聯合損失函數進行神經網絡優化能夠促進增強語音質量的提升并達到更高的可懂度。

        參考文獻:

        [1] BABY D, VIRTANEN T, GEMMEKE J F. Coupled dictionaries for exemplar-based speech enhancement and automatic speech recognition[J]. IEEE-ACM transactions on audio, speech, and language processing, 2015, 23(11):1788-1799.

        [2] LI C X, DU Y J, WANG S D. Mining implicit intention using attention-based rnn encoder-decoder model[C]// International conference on intelligent computing. Springer, Cham, 2017: 413-424.

        [3] 葛宛營,張天騏.基于掩蔽估計與優化的單通道語音增強算法[J].計算機應用,2019, 39(10): 6.

        [4] 鮑長春,項揚.基于深度神經網絡的單通道語音增強方法回顧[J].信號處理,2019,35(12): 11.

        [5] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feed forward neural networks[C]. Proceedings of the thirteenth international conference on artificial intelligence and statistics, Sardinia, Italy, 2010, 5: 249-256.

        [6] MARTIN-DONAS J M, GOMEZ A M, Gonzalez J A, et al. A deep learning loss function based on the perceptual evaluation of the speech quality[J]. IEEE Signal processing letters,2018, 25(11):1680-1684.

        [7] 李鴻燕,屈俊玲,張雪英.基于信號能量的濁語音盲信號分離算法[J].吉林大學學報(工學版),2015,(5): 6.

        [8] 戴紅霞,唐於烽,趙力.基于維納濾波與理想二值掩蔽的數字助聽器語音增強算法[J].電子器件,2019,42(4): 4.

        (本文來源于《電子產品世界》雜志2023年6月期)



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 大冶市| 贡山| 横峰县| 吕梁市| 金溪县| 漾濞| 曲水县| 嫩江县| 阳朔县| 台中市| 鄂托克前旗| 河北区| 兰考县| 开封县| 枝江市| 广平县| 淄博市| 奉化市| 大余县| 克什克腾旗| 新丰县| 治县。| 松溪县| 饶阳县| 宜兰县| 通城县| 宣化县| 宜君县| 婺源县| 永德县| 绍兴市| 寿阳县| 荆州市| 固阳县| 德州市| 伊宁市| 集贤县| 上高县| 通城县| 甘德县| 台南县|