ARM 2023全面運算解決方案與新一代GPU架構 推動移動運算視覺體驗升級
由左到右分別為:ARM終端產品事業部產品管理總監Andy Craigen、ARM資深副總裁暨終端產品事業部總經理Chris Bergey、ARM CPU產品管理資深總監Stefan Rosinger。ARM
隨著智能手機已成為串流媒體的主要裝置,加上包括AR、3D手游、以及愈來愈多生成式AI智能技術的興起,消費者對沉浸式體驗的追求為移動運算平臺催生了比以往更高、更復雜的運算需求。為了滿足各式應用需求,ARM日前推出2023全面運算解決方案(TCS23),藉由效能與效率的進一步提升,再度突破了ARM運算平臺的能力極限。
全面運算解決方案(Total Compute Solutions;TCS)是ARM專為適用于移動設備的SoC設計打造的系統級解決方案,其中涵蓋了CPU、GPU硬件IP、互連與系統IP技術,以及軟件和開發工具等。在新發布的2023全面運算解決方案(TCS23) 中,最主要的亮點包括:推出基于全新第五代GPU架構的旗艦級Immortalis-G720 GPU、效能最強大的ARMv9 Cortex運算叢集系統,以及增強的系統最佳化技術,將持續驅動移動設備的創新應用。
TCS23是ARM專為適用于移動設備SoC設計打造的系統級解決方案。ARM
Cortex-X4可提供比Coretex-X3更佳的效能與效率。。ARM
DSU--120新增了不同的電源模式,可進一步降低漏電流。。ARM
推升數碼體驗 GPU扮演日益重要的角色
ARM專注于GPU開發已有多年時間,從現今已被廣泛運用的Mali GPU,到2022年首度推出支持硬件光線追蹤技術的Immortalis-G715旗艦級GPU,把移動GPU的效能推升到新的層次。
ARM資深副總裁暨終端產品事業部總經理Chris Bergey表示,對手機設計來說,GPU扮演著日益關鍵的角色,不管是提供出色的視覺體驗與提升機器學習(ML) 運算,都需要更兼具效能與效率的GPU。
ARM終端產品事業部產品管理總監Andy Craigen補充說,提升繪圖效能對手機設計非常重要,ARM已投入大量資源建構繪圖平臺。大家都知道繪圖功能非常耗能,即使對桌上型電腦和游戲機來說也是如此。所以,ARM的重要任務是要吸引開發社群,讓他們相信在手機上也能實現近似在復雜的PC上的視覺體驗,進而愿意將其游戲移植至Android移動繪圖平臺。
把光線追蹤技術導入移動設備
Chris Bergey指出,自2022年推出Immortalis-G715以來,不管在效能、功耗、面積(PPA)各方面都獲得了業界的正面回響,開發社群對于光線追蹤技術在手機上的應用也展現出高度興趣。
要在手機上實現真實3D影像,如何兼顧效能與功耗需求是一大挑戰。Andy Craigen表示,「由于把PC用的光線追蹤技術直接搬到移動平臺上不可行,因此ARM花了很多時間分析光線追蹤技術,了解那些功能可帶來最佳效果,并滿足手機的功耗與芯片面積要求。從2022年首度推出Immortalis-G715以來,我們就展開這個過程,也將會持續發展。」
在2023年初舉行的GDC大會上,ARM與聯發科技、騰訊游戲共同展示了應用光線追蹤技術的解決方案。此外,ARM亦積極推動生態系統對此技術的了解,協助他們利用各種資源來開發游戲,包括Unity等游戲引擎的支持就緒,及其免費提供的ARM Mobile Studio開發工具。
為了展示如何建構光線追蹤技術,ARM臺灣團隊也嘗試自行開發游戲。「我們希望借此展現出Immortalis平臺支持3D繪圖的可行性與出色的視覺效果,以及如何能在手機的功耗預算內實現」,Chris Bergey說。
推出全新第五代ARM GPU架構
為了進一步推升GPU效能,實現更加沉浸的視覺體驗,ARM日前宣布推出第五代GPU架構,以及基于此架構的全新Immortalis-G720。這是 ARM 歷來效能與效率最高的GPU,與前一代產品相比,效能與效率提升了 15%,而面積僅增加2%,同時存儲器帶寬使用量更大幅降低了40%。
第五代GPU架構的主要特點是導入了延遲頂點著色技術 (Deferred Vertex Shading;DVS),透過重新定義GPU中的數據流,擴展GPU核心數量,最高可達16顆核心,以實現更高效能。
Chris Bergey解釋說,存儲器存取與數據移動是影響GPU耗能的主要原因。移動繪圖平臺與桌上型電腦的根本差異是在帶寬使用效率。因此,藉由導入DVS技術,能顯著降低帶寬使用以及對外部DRAM的存取,提高每秒顯示畫面張數(幀率),使手機也能支持更復雜的繪圖工作負載。
「游戲只是第五代GPU架構的其中一個應用市場,3D視覺還可為移動設備帶來更多的應用商機,像是AR、電腦輔助繪圖(CAD)設計等。」
推動AI與機器學習應用于智能手機上
GPU效能的提升對于增強手機的AI處理能力也至關重要。Chris Bergey表示,對移動設備來說,ARM透過TCS23提供強大、必要的基本運算架構,而客戶能自行在其SoC中針對NPU進行差異化設計。而ARM也會透過與夥伴緊密的合作關系,持續提供相關的支持。
他強調,AI需求透過異質運算來提高運算效能,其中涉及了ML任務、推論任務、功耗敏感任務等不同的運算需求。其設計挑戰在于,需協助開發人員對AI進行最佳的編程,利用最適切的處理器來執行特定任務。對ARM來說,不只是硬件架構的提升與就緒,也需要提供豐富的軟件、應用程序支持,并協助客戶最具效率地把AI編程在通用ARM移動運算平臺上,才能真正解決問題。
隨著近來生成式AI等全新的智能應用快速興起,ARM亦積極推升手機的AI處理能力,每兩年增加一倍。此外,透過其開源軟件程序庫,不斷提升ARM IP的機器學習能力,以便支持開發人員充分運用AI與ML工作負載的優勢。Android平臺的Google應用程序已在使用ARM NN與ARM Compute Library,目前擁有超過一億的每日活躍用戶,讓開發人員得以運用ARMv9 Cortex-A CPU與ARM GPU,將其在ML工作負載的執行最佳化。
兼顧效能與效率的Cortex-X4核心
在CPU方面,ARM推出第四代Cortex-X 核心Cortex-X4,這是ARM歷來速度最快的CPU,與Cortex-X3相比,效能提高了15%,同時,在相同的制程下,與Cortex-X3相比,全新的省電微架構可降低功耗達40%,而面積僅增加10%,是Cortex-X系列中每毫米效能最高的。
ARM CPU產品管理資深總監Stefan Rosinger表示,從圖中可以看出,Cortex-X4與Cortex-X3的功耗對應效能曲線,明顯地向右移動。這意味著,在相同的效能下,Cortex-X4可比Cortex-X3帶來顯著的功耗減省。或是換句話說,在相同的功耗下,可提供更高的效能。
「Cortex-X系列核心雖然是基于『效能優先 』(performance-first)』的理念來設計的,但對手機有限的功率預算來說,推升效能的同時,仍須兼顧效率,才能為客戶帶來真正的價值。不只功耗,Cortex-X4也提升了面積效率,所以能以相同的面積,提供更高的效能,這是Cortex-X4核心設計上的重要考量。」
Chris Bergey補充說,手機有一定的功率預算,因此必須在兼顧功耗的情況下,來推升效能。藉由高效率的Cortex-X4,客戶能夠把相同功耗下帶來的效能增益,運用在AI等其他的更多運算上。另外,此曲線是在iso-process同頻比較條件下的結果,若采用N4或N3制程,取得的效率將更顯著。
此外,Cortex-X4可支持2MB的L2快取,最多可擴展至14個核心叢集,以及32MB的L3快取,可提供絕佳效能與多種彈性配置來滿足客戶不同應用市場的需求。除了旗艦級智能手機之外,更高的效能與效率也將能幫助Windows-on-ARM筆記本電腦市場的進一步擴展。
系統最佳化技術實現強大的運算叢集系統
除了推出新款CPU與GPU之外,TCS23的另一個重點是提供增強的系統最佳化技術,以提升整體效能。
Chris Bergey表示,開發GPU時,ARM也把CPU以及系統的運作效能納入考慮。以新推出的Immortalis-G720為例,可與CPU共同使用最高達32MB的系統級快取,根據工作負載來進行最佳配置。目的是使數據都在局部取得,僅量不使用外部DRAM,以降低GPU功耗。
在CPU叢集方面,ARM已將其 DSU(DynamIQ Shared Unit)升級至DSU-120。除了上面提到的14核心擴展性與32MB系統快取之外,另一個重點是可提供更多不同的電源模式。
Stefan Rosinger表示,在手機中,會有Cortex-X、Cortex-A不同的核心,因此可根據不同的工作負載,開啟或關閉特定核心的電源。若以核心電源全開啟為基準,可以看到不同使用情境下,電源節省的效益。DSU-120新增的電源模式,可以有效節省芯片的漏電流。
「由于SRAM的微縮腳步跟不上邏輯元件,盡管為了提升效能我們增加了L3快取的容量,但相對的,對功耗也帶來的新的要求。因此,漏電流的節省也成為不可忽視的議題。」
展望未來 邁向異質整合時代
在未來幾年內,ARM將繼續開發下一代包括Krake GPU和Blackhawk CPU等關鍵IP,以滿足合作夥伴對于運算與繪圖效能不斷成長的要求。
然而,隨著芯片即將面臨2納米制程的微縮極限,朝向3D堆疊與先進封裝技術來延續半導體技術發展,已成必然趨勢。對于針對SoC設計者提供IP的ARM來說,會帶來那些影響與轉變呢?
Chris Bergey表示,當制程微縮趨近極限時,必須對效能、功耗與面積的權衡有更仔細的考量,才能順應制程推進,協助客戶取得最大效益。隨著半導體產業進入3D堆疊與先進封裝技術時代,就要以系統角度來思考并區隔設計,為客戶提供最佳的解決方案,例如把SRAM停留在成熟制程,運算核心采用先進制程等。在這過程中,與臺積電的密切配合至關重要。藉由深入了解他們的制程技術,才能就此開發出更適切的解決方案。
他指出,采用異質整合的先進封裝元件未來也將進入移動市場。ARM將順應此趨勢,持續在「超越摩爾定律(More than Moore)」時代勝出。市場對于運算的需求時無止境的,而以ARM為基礎的未來仍將充滿無限可能性!
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。