基于四核DSP的視頻交通檢測系統設計方案
2.2 4×DSP并行系統結構
圖像處理算法靈活多樣,而且還在不斷地迅速發展,為滿足日益復雜的圖像處理算法和逐漸變大的圖像規模,出于通用性考慮,系統中處理器之間需要靈活的、高帶寬的通信和握手機制。圖2給出了所設計的并行系統框圖,采用4顆TMS320C6416芯片,能較快完成以前一臺計算機需要長時間才能完成的任務。
從圖2可以看出,該系統以緊耦合系統和松耦合系統為基礎構架而設計的,結合了兩者的優點。緊耦合系統通過共享的存儲器來實現處理器之間的通信,處理器之間的聯系比較緊密。松耦合系統中每個處理器節點帶有存儲器[5],處理器之間通過消息傳遞的方式來相互通信。該系統每個節點即是一臺完整的DSP處理器并且帶有SDRAM存儲器,屬于松耦合系統;而所有節點共享一個同步 4口SRAM存儲器,構成的整體是一個單一計算資源,屬于緊耦合系統。因此,該系統具有緊耦合系統和松耦合系統的優點,相比于前面兩者具有增強的可用性和更好的性能。
2.3同步4口SRAM通道劃分
將容量為128 KB的同步4口SRAM劃分為7個區域(見圖3),除一個公共區域外,其余6個區域用于DSP之間的互相通信。根據同步4口SRAM的特點,這6個區域可以同時使用,即這6個區域為DSP之間的通信構建了獨立“通道”,通道之間相互獨立、互不干擾并可以同時使用。同步4口SRAM的總線頻率工作為133 MHz,數據寬度為16bit,其帶寬為266 MB。由于設計的對稱性,無論采用乒乓法還是熱土豆法來測量點到點的通信開銷,其結果都是一樣的。
2.4系統工作原理和性能分析
數字視頻數據存入視頻緩沖器FIFO,這一速度可達266Mb/s。在DSP-1的DMA控制器作用下,前端數據緩沖FIFO中的數據被不斷地轉移到同步四口SRAM中,然后各個DSP分別或者同時讀取要處理的數據。因為前端FIFO和同步四口SRAM都掛接在DSP-1的獨立接口上,因此數據分配過程不會打擾到DSP-1本身算法的執行,甚至不會干擾到DSP-1對其外接的SDRAM存儲器的讀寫操作。各個DSP協同完成整個圖像處理算法,過程中可能會存在相互之間的通信或者數據交換,這同樣通過同步四口SRAM完成。初始化時,各個DSP將程序分別下載到各自的代碼空間和數據空間;對數據處理完成后,再不斷地通過PCI總線將處理的結果分別送出。此外,系統上留有足夠的擴展接口,方便對系統的進一步擴展。
采用4個TI公司高端數字信號處理器TMS320C6416的并行圖像處理系統。單個的數字信號處理器TMS320C6416的頻率為600MHz,處理器的運算能力4800MIPS,處理器的本地SDRAM為32 MB。現在的4×DSP系統,具有處理器的最高性能19 200 MIPS,系統具有總SDRAM為128 MB+128 KB。另外,考慮加速比和效率[6-7]。加速比指對某個特定的應用,使用并行算法的執行速度相對于串行算法的執行速度所快的倍數;并行系統的效率則指加速比與處理器個數之比。根據Amdahal定律[4],加速比會隨著處理器數目的增加而提高,但是存在極限,而且這一極限是由問題本身所決定的,因為隨著處理器數目的增加,額外開銷會越來越大。對一幅 1024×2048像素,每個像素1B的圖像進行FFT運算,單一處理器運算時間為82 715.020 ms,4個處理器運算時間為20 703.770 ms,可得加速比為3.995,并行系統的效率為99.88%。可見,系統性能得到大幅提升。
隨著數字信號處理器的飛速發展,圖像處理算法更加復雜,多個DSP并行協同工作的構架將越來越多地被采用,應用會更加廣泛。為滿足日益復雜的圖像處理算法和不斷增加圖像規模,采用4顆TMS320C6416芯片,設計了一套通用的高性能并行圖像處理系統,能較快完成以前1臺計算機需要長時間才能完成的任務。該系統可以作為一個通用的視頻檢測的硬件平臺,實現多種檢測算法,具有很好的可擴展性,容易在此基礎上進行二次開發。實驗和應用結果表明,該系統能夠實時地計算交通信息參數,并實現圖像和數據的網絡傳輸,具有強大的視頻處理能力和網絡功能。總之,該方案靈活、簡單,能夠滿足實時性的要求,實踐證明可應用于車流量檢測系統中以提高了系統的整體性能。
評論