博客專欄

        EEPW首頁 > 博客 > 加州大學團隊開發異構編程新模型,開辟提升處理器性能新路徑

        加州大學團隊開發異構編程新模型,開辟提升處理器性能新路徑

        發布人:深科技 時間:2024-03-03 來源:工程師 發布文章
        如果你關注數碼科技,那么你一定對“性能過剩論不陌生。對于普通用戶來說,如今的芯片性能足以應對大多數的日常場景。

         然而,人工智能應用領域的熱潮似乎又重新點燃了許多人對于算力的需求。與此同時,在圖形處理與渲染、高性能計算等領域,人們對提升處理器性能的追求從未停歇。 不過,在摩爾定律與登納德縮放定律都面臨危機的今天,除了依賴制程的發展和核心數的增加,我們還能找到其他可行的路徑來提升計算機性能嗎? 近期,由美國加州大學河濱分校的副教授曾宏偉(Hung-Wei Tseng)領導的研究團隊,提出了一種以新的軟件框架提高現有計算機處理速度的方法,為我們提供了一種新的性能提升思路。 圖片圖丨曾宏偉(來源:加州大學河濱分校) 為了處理不同類型的數據,現代計算機大都集成了多種處理器,并引入異構計算模型以提升性能。
        然而,由于傳統的編程框架,包括領域特定語言(domain-specific languages),只能將代碼區域(code region)分配給一種處理器,使得其他計算資源閑置而無法用于當前函數的運算,因此現有編程模型并不能充分發揮異構模型的潛力。 而這項名為“同步異構多線程(simultaneous and heterogenous multithreading,SHMT)的編程和執行模型,旨在克服現有編程模型未能充分利用異構計算系統潛力的限制。 與傳統模型不同,SHMT 可以充分利用異構的并行類型。通過結合多種處理單元(如 CPU、GPU、TPU 等)的優勢,這種模型能有效提升計算效率和能效。 圖片圖丨 SHMT 的執行模型(c)相比于傳統異構計算機(a)與使用了軟件流水技術的傳統異構計算機(b)的優勢(來源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 此前的研究已經證明,使用了不同處理模型與設計理念的協處理器和硬件加速器,都能以出色的性能執行相同的函數,這為 SHMT 的實現提供了可能。
        不過,要將同一函數的計算分解到不同類型的計算資源中,系統面臨以下三個挑戰:  第一,SHMT 需要某種機制來描述和劃分在不同的計算分區上的等效操作和數據; 第二,SHMT 必須能夠高效地協調異構硬件上的執行; 第三,由于不同的硬件單元會提供不同質量水平的結果,SHMT 必須在不產生大量額外開銷的情況下確保結果。 為了解決這些困難,研究人員開發了一個由三個主要部分組成的系統架構: 首先,SHMT 引入了一種虛擬硬件的概念,允許開發者將計算任務借助一系列虛擬操作(Virtual Operations,VOPs)的形式從 CPU“卸載
        VOPs 定義了 SHMT 底層硬件可支持的可用操作,進而使整個 SHMT 子系統抽象為一個單一且強大的加速器。
        圖片圖丨矢量或矩陣平鋪處理模型類型的 VOP 列表(來源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 其次,SHMT 有一套至關重要的運行時系統。它不僅作為虛擬硬件的“驅動程序,在程序執行期間動態解析 VOPs,還負責評估硬件資源的能力,并據此做出智能的調度決策。
        它將 VOPs 進一步分解為高級操作(High-Level Operations,HLOPs),這些 HLOP 作為 SHMT 中的基本調度單位,每個 HLOP 負責執行 VOP 運算的特定部分,且均具有硬件無關性,確保了運行時系統能夠根據實際情況靈活調整任務分配。 更進一步地,SHMT 采用了一種質量感知的工作竊取(Quality-Aware Work-Stealing,QAWS)調度策略,以優化資源利用率和提升系統性能。
        這種策略通過動態調整工作負載分配來平衡各種硬件資源的使用,減少空閑時間,避免性能瓶頸,同時保證了任務執行的質量。

        圖片

        圖丨SHMT 概覽(來源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture)


        為了檢驗這一模型,該課題組使用 NVIDIA Jetson Nano 模塊定制了一個嵌入式系統平臺,以模擬移動設備、數據中心服務器等常見使用場景進行驗證。
        該系統原型由下圖所示部分構成:
        圖片圖丨 SHMT 原型平臺構成示意圖(來源:DeepTech)
        在基準應用程序上的檢測結果顯示,相較于基準方法,采用性能最佳策略的 QAWS 的 SHMT 速度提高了 1.95 倍。 實驗表明,所有 QAWS 策略均能有效地提高結果質量,MAPE(平均絕對百分比誤差)平均值低于 2%,接近于手動優化的 Oracle 場景。且無論采樣率如何變化,QAWS-TS 策略的性能都名列前茅。
        圖片圖丨(a)質量與 QAWS 采樣率的關系,(b)速度提升與 QAWS 采樣率的關系(來源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture) 更為重要的是,由于 SHMT 減少了執行時間,并將計算任務轉移到耗電更低的 Edge TPU 上,因此它在節約能耗方面展現出了巨大潛力。
        實驗結果顯示,與基線 GPU 相比,SHMT 在 QAWS-TS 策略下平均減少了 51% 的能耗和 78% 的能量延遲積。
        同時,得益于 Edge TPU 專用邏輯提供的加速功能,以及 SHMT 并行編程模型使用的低數據交換算法,這一模型也不會導致顯著的內存和通信開銷。
        圖片圖 | 相關論文(來源:the 56th Annual IEEE/ACM International Symposium on Microarchitecture)
        近日,相關論文以《同步異構多線程》(Simultaneous and Heterogenous Multithreading)為題,在加拿大多倫多舉行的第 56 屆 IEEE/ACM 國際微架構研討會上發表[1]。
        加州大學河濱分校的博士研究生徐冠杰(Kuan-Chieh Hsu)為第一作者,曾宏偉副教授擔任通訊作者。
        曾宏偉對媒體表示,“你不必增加新的處理器,因為現有的就足夠了。因此,僅需使用現有的處理組件,就相當于降低了計算機硬件成本,同時減少了服務器等設備運行時的能源消耗,也減少了碳排放與水消耗。 但這一模型也面臨一些挑戰與局限性。例如,如何有效管理和調度多種類型的計算資源以實現最優能效、如何降低編程模型的復雜性、如何降低通信開銷以及如何擴展應用平臺與場景等問題,而這些也正是曾宏偉團隊未來的研究方向。


        參考文獻:

        1.Kuan-Chieh Hsu and Hung-Wei Tseng. 2023. Simultaneous and Heterogenous Multithreading. In Proceedings of the 56th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO '23). Association for Computing Machinery, New York, NY, USA, 137–152. https://doi.org/10.1145/3613424.3614285

        2.https://news.ucr.edu/articles/2024/02/21/method-identified-double-computer-processing-speeds 


        支持:Ren


        排版:劉雅坤


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: 加州大學

        技術專區

        關閉
        主站蜘蛛池模板: 琼海市| 陆川县| 广安市| 瑞昌市| 建昌县| 镇巴县| 临高县| 乐至县| 中牟县| 扎囊县| 屯留县| 台江县| 汉中市| 麻阳| 东丽区| 昌黎县| 平谷区| 察哈| 望谟县| 油尖旺区| 吉木乃县| 江华| 长宁县| 夏津县| 满洲里市| 拜城县| 新源县| 东乡县| 东辽县| 黑水县| 亳州市| 顺义区| 永兴县| 台南县| 桓台县| 大冶市| 合川市| 疏附县| 石家庄市| 江都市| 安阳县|