嵌入式多媒體多核應用軟件設計框架
圖4顯示了宏塊數據訪問模式的數據流模型,可以在兩個處理器核之間交替傳送宏塊。L2存儲器具有多個片段緩沖器,獨立的MDMA通道將宏塊從每個處理器核的L2存儲器傳輸到L1存儲器。L1存儲器也有多個緩神器,用以避免DMA與處理器核訪問總線的沖突。與行處理框架類似,該框架中處理器核A控制輸入視頻接口,處理器核B控制輸出接口,計數信號量實現兩個處理器核之間的同步。這種框架的應用實例包括邊緣檢測、
JPEG/MPEG編碼/解碼算法和卷積編碼。

圖4 在雙核宏塊數據訪問模式中,L2存儲器具有多個片段緩沖器,獨立的MDMA通道將宏塊從每個處理器核的L2存儲器傳輸到L1存儲器。
在幀級處理模式中,外部存儲器存儲關聯幀。根據數據幀(宏塊或行)之間的關聯性粒度,系統將數據幀的子塊傳送到L1或L2存儲器。圖5顯示了幀級處理框架的數據流模型。在這種情況下,假定某個宏塊在多個幀之間存在關聯,則系統將數據幀的宏塊傳送至L1存儲器。與其它框架類似,該框架中處理器核A控制輸入視頻接口,處理器核B控制輸出接口,通過計數信號量實現兩個處理器核之間的同步。這種框架的應用實例包括運動檢測算法。

圖5 在幀級處理流程中,外部的存儲器存儲獨立幀
在GOP級處理模式中,每個處理器核處理多個相繼的數據幀。幀級處理框架與GOP級處理框架之間的區別在于,前者是在幀內完成空間劃分,后者則通過時間劃分(幀序列)實現并行處理。對于GOP數據訪問模式,關聯性存在于一組數據幀內部,兩組幀之間數據不存在關聯性。因此,處理器核可以獨立處理每一組幀。圖6顯示了這種框架的數據流。與幀級處理框架類似,系統可以將幀數據塊傳送至處理器核的L1存儲器。為了有效利用外部存儲器的交錯存儲庫結構,系統在處理器核間均衡地分配存儲庫。ADSP-BF561的每一個外部存儲庫都支持多達四個內部SDRAM存儲庫。這種框架的應用實例包括MPEG-2/4等編碼/解碼算法。

圖6 在GOP級數據訪問模式中,關聯性存在于一組數據幀內部,兩組幀之間數據不存在關聯性。
在實際應用中,系統可能使用多種算法處理數據流,而每種算法都可能用到不同的數據存取模式。這種情況下,可以針對特殊應用將幾種框架結合起來使用。為利用多核結構,可以采用流水線處理來實現并行操作,但這種并行操作是不對稱的,因為不同處理器核上可能執行不同的計算。然而,系統可以分配一些其它的任務到處理器核的空閑指令上,在保持靈活性的同時達到處理器核的工作量平衡。圖7顯示了行級處理和宏塊處理相結合的框架的數據流模型。

圖7 行級處理和宏塊處理相結合的框架的數據流模型
在某些其他應用中,多個數據塊之間也會存在數據關聯性,數據存取模式仍然是可預測的,但它擴展到了一個宏塊或一行的粒度之外。例如,運動窗口搜索就可能使用幾個相鄰的宏塊。數據存取模式仍然是可預測的,但系統在算法的多次迭代之間要訪問多個數據塊。這種情況下,可以對軟件框架進行修正,以實現有效的并行操作。例如,如果多行間存在關聯,可以通過調整行處理框架,將N個連續行的幀片段傳送到每個處理器核的L1存儲器。利用類似的方法,還可以對宏塊處理框架進行擴展,以便將多個宏塊從L2存儲器送入內部L1存儲器。
軟件框架分析
為了對雙核處理的軟件框架進行評估,ADI公司利用數據流模型率先開發了一款單核應用軟件,然后與雙核方案進行對比。Blackfin獨有的系統優化技術也能有效地利用可用帶寬。為了簡化分析,ADI公司只比較了基本框架的處理速度,而沒有考慮幾種架構的組合。
所謂周期,是指為了滿足NTSC(美國國家電視系統委員會)視頻輸入的實時約束條件而用于處理數據流的處理器核計算周期。對于一個以600MHz速度運行的處理器核,為了滿足實時約束條件,處理每一像素可用的總周期數為44周期/像素。任何對數據流的處理器核訪問都只需要一個單核周期,因為所有數據訪問都是對L1存儲器的訪問。所示的周期數不包括中斷延遲。
如表1所示,雙核框架將所有框架的處理速度有效提高了兩倍。表中還說明了每個處理器核的L1存儲器使用量,以及各種框架需要的共享存儲器空間。這些框架使用ADI公司的DD/SSL(器件驅動/系統服務庫)實現對外設和數據的管理。

表1:框架說明
存儲器相關文章:存儲器原理
評論