基于龍芯3B的H.264解碼器的向量化
3 ffmpeg的向量化
3.1 ffmpeg的oprofile測試
使用oprofile對ffmpeg解碼視頻“問道武當002.mkv”的過程進行測試,測試結果如表2所示。表2列出了各個函數的調用過程以及運行時間所占的比重。而針對ffmpeg解碼器進行的向量化工作,則主要是針對oprofile測試結果中執行時間較長、運行比重較大的幾個函數的向量化。

上述函數的執行時間幾乎占據了ffmpeg解碼器執行時間的60%,因而針對上述幾個函數進行向量化,就完全可以達到提升ffmpeg整體解碼速度的目的。
3.2 針對龍芯3B的ffmpeg向量化
3.2.1 向量化方法
實現ffmpeg解碼器在龍芯3B上的向量化主要是使用龍芯3B擴展的向量指令來改進3.1節中oprofile測試結果中執行時間比重較大的幾個函數。而且在向量化的同時,同樣可以使用一些優化策略,來提高向量化后的函數的性能。主要使用到的優化方法包括:
(1)循環展開。循環展開是一種循環變換技術,將循環體中的指令復制多份,增加循環體中的代碼量,減少循環的重復次數。需要說明的是,循環展開本身并不能直接提升程序的性能。
使用循環展開的主要目的是充分挖掘指令或者數據間的并行性。其中向量擴展指令的使用就是利用了展開后的循環體內數據的并行性;而在展開后的循環內使用指令調度和軟件流水技術則是為了充分利用指令間的并行性。
(2)指令調度。循環展開后的循環體內的指令數目增多,因而可以進行指令調度,將不存在操作數相關性和不存在運算部件相關性的指令調度到一起,這樣可以充分發揮龍芯3B的流水線性能,從而提高代碼在龍芯3B上的執行速度。
除了使用龍芯3B的向量擴展指令和使用上述兩種優化方法以外,同樣還可以根據具體函數的特點,使用其他一些優化方法進行優化,比如使用邏輯運算和移位運算來代替乘法運算等。針對每個函數的向量化優化在3.2.2小節中介紹。
3.2.2 針對具體函數的向量化
3.2.1小節概述了向量化時用到的一些優化方法,本節則針對oprofile測試中比重較大的幾個函數進行有針對性的優化。
對于表2中的函數,我們可以根據函數名將其分類,函數命名類似的函數基本上都可以使用類似的優化方法。
(1)簡單向量化。對于1號和2號函數的優化,本文都采用了使用移位運算來代替乘法運算的策略,并且針對循環內部運算的有界特性,使用飽和向量運算來改進。不過對于2號函數的訪存操作,由于存在著數據非對齊的情況,因而使用額外的向量指令對數據進行打包和回寫。而3號函數則是1號和2號函數的混合,因而對1號和2號函數的優化間接提升了3號函數的性能。
而對于4號、5號和6號函數,本文僅對其內層循環使用了循環展開和指令調度策略,就能夠取得不錯的運算效果。
同樣,對于11和12號函數也可以比較直觀的進行向量化,在此就不做詳述了。
(2)間接向量化。而對于比較難于向量化的7號和8號函數,本文分別采用了使用掩碼和使用矩陣轉置運算的策略來間接實現向量化。
其中針對函數h264 v loop filter luma的C語言實現中有很多判斷語句的問題,本文使用構建掩碼的方式來消除這些判斷語句。

以圖1(a)中的循環為例介紹掩碼的構建。而圖1(b)所示為代替該循環的向量指令。具體的運算結果如圖1(c)所示:將p向量(數組)和q向量做飽和減法(結果為負的都置為0),得到的結果向量如Vsub所示。使用Vsub與零向量進行比較來設置掩碼:結果為真,掩碼值為0xFF;反之,結果為假,掩碼為0。最后將掩碼值與p向量進行與操作,就可以得到該循環的運算結果。
使用構建掩碼的方法來消除判斷語句,不但減少了由判斷引起的時間開銷,而且重要的是間接將循環進行了向量化,提高了函數性能。而對于9號和10號函數,可以使用同樣的方法來改進。
而對于8號函數,由于運算處理的是連續的數據,因而無法進行向量化。使用矩陣轉置的方式,將數據重新打包后,就可以進行相應的向量運算。

對于圖2(a)中的運算,原始計算是P向量內部的運算,因而無法向量化,我們用向量指令將p向量轉置為q,其中q0存放p中標號為1的數據,q1存放P中標號為2的數據,依此類推。轉置得到的q向量就可以用圖2(b)中的向量指令運算,得到的運算結果與原來的運算相同。
對于13~15號函數的優化,同樣使用到了上面的轉置方法。而4.1節的測試結果則說明了各個函數的優化效果。
評論