TI 全新TMS320C66x 定點與浮點DSP內核成功挑戰速度極限
4
部分應用采用定點技術的隱性成本盡管與浮點處理相比,DSP 能夠實現更快的定點處理,但卻不得不為特定算法在開發時間方面相付出代價。通信系統典型的設計流程是首先基于計算機模型開發相應算法,然后再將這些算法用在初始系統部署中。隨著部署及應用范圍的不斷擴大,工程師便可將收集到的現實世界的數據帶回實驗室,以通過對算法的校正、調優提升系統性能。通常可使用 Matlab 或其他固有的浮點工具開發新的算法。接下來面臨的挑戰是如何在保持算法和系統性能的同時,將這些浮點算法轉換為定點算法。復雜拙劣的算法會占用大量系統資源,從而導致系統的整體性能下降。在需要用到復雜處理的情況下,將 Matlab 中的代碼移植到真實系統中就算耗費數周乃至數月的時間也不是什么罕見的現象。TI 最新架構具有原生浮點支持,從而使從浮點到定點的整個轉換過程變得毫無必要。通過在 C66x DSP 上使用浮點指令,可輕松將代碼從 Matlab 等工具中進行移植,并直接編譯至 TI 的 DSP 中,如圖 3 所示。

圖 3 - 浮點功能可大幅加速產品上市進程
浮點技術在 4G 基站中的重要作用無線電話正不斷演進發展成為需要高數據量傳輸以支持視頻流和其他高寬帶應用的復雜媒體平臺。為了充分滿足這些需求,無線行業需要在基站中部署 WiMax 和 LTE 等最新的 4G 技術,力爭為終端用戶提供更高的數據吞吐量。這些 4G 基站利用多天線信號處理及 MIMO、Beamforming 等算法來提高其性能。通常情況下,這些算法會依賴本身易于量化和縮放與定點處理相關的問題的矩陣反演技術。采用浮點實施這些算法可進一步提高系統的速度及精確度,從而獲得更高性能,并最終為移動電話用戶帶來更精彩的體驗。本文引用地址:http://www.104case.com/article/150339.htm
5
不斷增長、層出不窮的高性能應用亟需浮點運算功能之前我們已經討論過,由于執行每個基本算術運算需要較長時間,所以浮點處理是很耗時的,但這種情況在當算法需要很大動態范圍操作時則不然。在 4G 處理的矩陣反轉操作中,由于沒有簡單可行的定點操作方法,因此算法雖然運行于定點處理器(無原生浮點支持)中,但基本還是被迫對浮點運算進行仿真。由于處理器沒有獲得定點功能的優勢,因而在與使用支持浮點運算的處理器運行時,這些算法的運行速度要慢很多。C66x DSP 自身支持浮點功能,所以消除了這種性能瓶頸。例如,C66x DSP 內核運行 MIMO 及其他關鍵的多天線信號處理算法比在 C64x+ DSP 上運行定點功能的相同算法整整快 4 倍。
在國防、公共安全基礎設施及航空電子設備等各種任務關鍵型應用領域,浮點功能不僅可簡化開發,同時還能大幅提高性能。由于能夠直接使用 MATLAB 中的代碼,浮點不僅能夠顯著縮短開發周期,并且與大型 FFT 等定點代碼相比,眾多算法的浮點實施也會占用更少的執行周期。例如,雷達、導航與制導系統會處理通過傳感器陣列獲取的據量。眾多傳感器組件的各種不同能源模式可提供與目標的跟蹤和定位相關的信息。這組數據必須通過線性方程組處理才能提取到所需信息。解決辦法包括矩陣反演、分解與自適應濾波等數學函數。對更高輸出精度與更大動態范圍的需求促使這些功能在諸如C66x 等 1.25GHz 浮點引擎上實現出眾的表現。另外,C66x 擁有的 SIMD 增強以及每周期定點能力高達 1.25GHz 32 MAC 的卓越性能,也為設計人員在選擇適合其應用的浮點與定點組合方面提供了極大的靈活性。
除機器視覺、工業自動化應用外,超聲波等用于醫療影像的影像識別也需要非常高的計算準確度,這些均可從浮點功能獲益匪淺。在進行超聲波檢查時,必須對聲源發出的信號進行定義和處理,才能創建可提供實用診斷信息的輸出影像。對于用戶而言,C66x ISA 提供的更高精度可使影像系統達到更高的分辨率和識別率。
浮點應用眾所周知的領域便是語音處理,其不僅需要嚴格的時延,同時還需要超高的采樣率,這些都會極度依賴浮點功能提供的更高計算精度和更大的動態可變范圍來適應濾波及其他降噪算法。此外,機器人設計也會考慮寬動態范圍。因為裝配線上也許會發生難以預料的事件。浮點 DSP 的寬動態范圍可確保機器人控制電路以可預知的形式處理不可預知的狀況。
結論TI 最新的 C66x 內核催生了基于 DSP 的嵌入式處理器及SoCs 的創新類別,因而您無需再在定點處理器還是浮點處理器之間進行利弊權衡。這一革命性的進步將從根本上改變實時系統算法的設計與開發方式,從而使得系統開發人員能夠輕松而快速地構建極具差異化功能的全新解決方案。
評論