中國聯通基于英特爾智慧節能方案推動數據中心節能減排
“氣候和環境危機凸顯了通過創新科技降低碳足跡的重要性。英特爾 與中國聯通在數據中心節能減排方面的合作體現了雙方在踐行綠色 節能方面的承諾,也為業界提供了服務器能效提升的有益參考。我 們希望能夠以這些合作成果為依托,推動以數字化轉型和可持續發 展為綜合目標的產業高質量發展。” — 李亞東 英特爾中國政企及全球 OEM 解決方案事業部總經理
本文引用地址:http://www.104case.com/article/202504/469225.htm“中國聯通在新戰略指引下, 制定了《建設新型數字信息 基礎設施行動計劃》和《算 網融合發展行動計劃》,統 籌推進新型數據中心、云網 深度融合,通過與英特爾等 業界領先廠商的合作,探索 技術引領與管理效能提升, 貫徹落實國家雙碳決策。” — 康凱 聯通集團云網運營中心項目經理
概述 中國已經明確提出 2030 年“碳達峰”與 2060 年“碳中和”目標,實現雙碳目標不僅有助 于降低對環境的壓力,同時也是實現可持續發展的必然要求。為更好地響應國家政策, 助力經濟社會綠色發展,并為全球應對氣候變化貢獻力量,中國聯通將構建以綠色節能為主要特征的新型數字信息基礎設施作為重點工作,實施了大量技術與管理舉措,并取 得顯著成效。 目前,中國聯通的綠色化發展戰略在數據中心領域已經廣泛落地,有力地推動了低碳化 發展目標的實現。為了進一步推動數據中心的節能減排,中國聯通與英特爾深度合作,充分利用英特爾智慧節能方案在數據中心實現節能減排。該方案能夠通過軟件和人工智 能 (AI) 模型對服務器能耗進行預測和干預,提高數據中心的運行能效,同時滿足業務工 作負載對于服務級別協議 (SLA) 的要求,且無需對應用進行更改。目前,該方案已經在 實驗室中,結合中國聯通大數據等業務場景進行實驗驗證,被證明能夠比基準方案節電 最多 28%1。中國聯通與英特爾還計劃進一步推動該方案在更多業務場景的擴展應用, 不斷提升中國聯通的綠色發展水平。
背景:控制數據中心能耗是踐行雙碳目標 的重要方式 當前,環境危機以及能源供應挑戰日趨嚴峻,使得越來越多的人 將目光轉移到了環境保護上。降低社會經濟發展中的能源消耗、 建立人與自然和諧發展的綠色經濟,不僅有助于降低對環境的壓 力,也是實現可持續發展的必然要求。在中國雙碳行動規劃中, 已經明確了 “十四五” 與 “十五五” 期間,通過能源綠色低碳轉型 行動、節能降碳增效行動、工業領域碳達峰行動、城鄉建設碳達 峰行動等方式,實現碳達峰、碳中和。 但同時,能耗持續增長的整體趨勢仍未改變。研究報告顯示,由 于經濟活動加速,2021 年全球能源消耗量增長 5.8%2,超過了 疫情前的水平,這凸顯了低碳發展面臨的嚴峻挑戰。要推動社會 經濟整體節能減排,實現云與數據中心的綠色發展至關重要。數 據顯示,截至 2020 年底,中國數據中心耗電量已經突破 2000 億千瓦時,能耗占全國總用電量的 2.7%,預計 2022 年耗電量 將達到 2700 億千瓦時3。
作為全球領先的知名電信運營商,中國聯通在 2021 年發布的 《“碳達峰、碳中和” 十四五行動計劃》4 中,明確提出要 “不斷 提高通信網絡基礎設施綠色化水平,助力行業綠色低碳高質量 發展邁上新臺階”。對于通信云的構建、管理和運維,中國聯通 希望在保障 5G 等各類通信業務高效發展的同時,盡可能降低能 耗開銷。 為了降低數據中心的能耗水平,業界普遍以優化數據中心能源使 用效率 (Power Usage Effectiveness,PUE) 為目標,降低空 調等附加設備的能耗。但是,PUE 降低到一定程度之后會進入 瓶頸期,而且,部分以降低 PUE 為目標的方案較為復雜,需要 大量的部署、建設工作,不僅建設周期較長,而且會導致總體擁 有成本 (TCO) 顯著提升。 基于上述考慮,中國聯通在推動降低數據中心 PUE 的同時,從 數據中心 IT 設備入手,進一步提升節能減排能力。要做到這一點,就需要更好地提升數據中心核心 IT 設備 — 服務器的能效水 平,對 CPU 功耗進行更加精準的調節,但這也會面臨如下重要挑戰:
? 雖然 CPU 制程與工藝在不斷進步,但是由于數據中心工作負 載對于計算能力和算力密度提出了更高的要求,CPU 芯片整 體的熱設計功率 (TDP) 不斷攀升,這對于服務器的整體能耗 帶來了嚴峻的挑戰。
? 傳統的 CPU 能耗控制方案通常采用業務彈性編排的方式,實 現部分冗余主機休眠、空閑核深度節能、輕負載核調頻的目 標。但是,傳統方案通常采用的是靜態調整的策略,無法根據 業務調度進行靈活調整配置。在傳統方案中,主機和內核常常 會整體關停,難以實現更細粒度的控制,能耗控制效果不盡如 人意。
? 傳統的 CPU 能耗控制方案無法精準洞察、預測 CPU 的負載, 難以在精確控制功耗的同時有效管理 SLA,也就無法針對業務 的 SLA 要求對于能耗進行精細控制。
解決方案:
采用英特爾智慧節能方案實現 數據中心節能減排 為了進一步推動數據中心綠色發展進程,中國聯通與英特爾于 2021 年開始合作,雙方制定了整體的數據中心節能減排計劃, 并從 5G 核心網開始探索,逐步擴展到大數據等領域,不斷推進 智慧節能方案的落地。雙方將現階段合作的重點放在服務器節能 減排領域,并采用英特爾智慧節能方案更加精準、智慧地預測、 控制服務器的能耗,從而在滿足業務工作負載對 SLA 要求的前 提下,更大程度地提升節能水平。
英特爾智慧節能方案
英特爾智慧節能方案是依托英特爾? 人工智能方案和服務器平臺 技術的節能減排方案,通過 AI 模型和軟件方案進行預測和干預, 提高數據中心的運行能效。英特爾智慧節能方案采用智能遙測 (Intelligent Telemetry)、基于 Chronos 的時序數據分析、 英特爾? 至強? 平臺級能效控制、基于容器運行時接口的資源管 理器 (CRI-RM) 動態資源管理策略等構件,能夠有效滿足業務工 作負載的 SLA 要求,且無需對應用進行更改。
智能遙測
英特爾智慧節能方案選擇了開源監控組件 Prometheus。 作為云原生事實上的標準遙測工具,Prometheus 用于收 集和聚合指標作為時間序列數據,并提供了 collectd 作為 系統統計數據收集守護進程,可以通過多種方式發布這些 數據。英特爾還開發了高性能 Python 插件來獲取不受支 持的指標,以提高性能、減少開銷。
基于 Chronos 的時序數據分析
Chronos 框架源自英特爾開源的統一大數據分析和人工 智能平臺 BigDL,在模型訓練中能夠使用全部參數訓練回 歸模型,自動分析提取重要參數,僅使用重要參數訓練預 測模型。在模型推理中,Chronos 框架能夠預測工作負 載變化,在查詢網絡中尋找更優控制參數,通過 CRI-RM webhook 來應用新的更優控制參數。
英特爾? 至強? 平臺級能效控制
英特爾智慧節能方案提供了英特爾? 至強? 平臺級功耗控制 選項,融合操作系統層面的系統能源調節、CPU Turbo、 驅動,處理器能效級別的 EEP 控制、SAPM 控制、動態 切換,以及能級狀態的 PCS 狀態調整,以針對不同場景 提供更佳配置。方案提供細粒度的硬件控制旋鈕,動態切 換控制處理器內部的眾多算法。
基于容器運行時接口的資源管理器 (CRI-RM) 動態資源管理策略
該特性能夠通過在節點上的動態劃分系統資源,配合 Kubernetes 調度器,實現在節點層面上的合理任務編排, 將英特爾平臺的特性高效適配到 Kubernetes 的集群環境。 CRI-RM Balloon Policy 支持控制 CPU 核心頻率與非核心 頻率,用戶可以基于 CRI-RM Balloon Policy 創建 CPU 資 源池,為不同類型的工作負載定義 Balloon 類型,并能夠動 態更改 CPU 類和 Balloon 大小配置。
英特爾智慧節能方案能夠對英特爾? 至強? 可擴展處理器的各種運行指標進行智能遙測,在提供可視化監視支持的同時,將遙測數據 輸入到閉環控制邏輯之中,在操作系統層面、處理器能效級別、處理器能級狀態進行細粒度控制,以針對不同場景提供更佳的能效控 制。在單節點閉環控制的基礎上,英特爾智慧節能方案能夠便捷地擴展到集群閉環控制(如圖 3 所示),有效提升數據中心的整體能效水平。
與傳統服務器節能方案相比,英特爾智慧節能方案能夠進行更加智慧的峰谷預測,在閑時支持更多冗余主機休眠,顯著提升節能效果。
英特爾智慧節能方案還可根據業務 SLA 進行智能調頻,提供更細粒度控制,以及更多功耗控制抓手,在業務 SLA 要求與節能效果之
間實現更佳的平衡。
中國聯通采用英特爾智慧節能方案優化數據中心能耗
中國聯通在通信云資源池的 5G 網元、大數據等業務上,對業務 數據、處理器占用率進行了分析。結果顯示業務量與時間相關, 且存在波峰波谷特性,在業務運行期間,可通過實時檢測業務 負載、業務質量指標的變化,來靈活調整服務器的運行狀態,實 施動態節能減排。 基于英特爾智慧節能方案豐富的組件和集成的優化策略,中國聯 通從如下流程入手,提升節能減排效果:
? 在服務器運行過程中,利用英特爾智慧節能方案支持的眾多組 件對于服務器的各種運轉狀態進行智能遙測,將相關信息提供 給閉環控制邏輯;
? 基于業務數據進行建模,由英特爾智慧節能方案提供的 API 接口對時間序列數據快速執行填充、縮放等操作,并開展自動 特征生成;
? 實現超參數搜索,并根據預測目標檢索出更佳超參數集,優化 模型和數據處理工序并形成時間序列預測模型;
? 使用這一模型對實時業務數據進行推理(或進行效果評估和優 化),獲得最終的處理器占用率預測數據;
? 根據預測數據來進行基于 AI 的智能控制,使得 C/UFreq 緊密 跟隨工作負載變化,在節省更多功耗的同時,時延性能可以滿 足業務工作負載的 SLA 需求。
在前期,中國聯通與英特爾針對 5GC 網元業務應用場景進行測試。如今,雙方又針對大數據業務進行方案部署與測試驗證。在 中國聯通大數據業務中,工作負載隨時間有著明顯的波動,波峰 波谷差異較大,通過在波谷時采用節能措施,有望實現較為顯著 的節能效果。
基于上述特征,中國聯通設計了基于英特爾智慧節能方案的節能 原型。該原型從批處理業務場景入手,首先利用負載峰谷時的場 景特征,通過在波峰時使用默認高性能配置,波谷時使用自動低 功耗配置,并根據需要設置 CPU cfreq 和 ufreq 等手段,達到節能效果。
測試數據如圖所示,英特爾智慧節能方案比基準方案節能 28.6%5。這在很大程度上是由于英特爾智慧節能方案能夠支持 Cfreq 自適應調節,而基準方案則一直保持高頻,因此前者耗能遠低于后者。
推衍到整體云資源池中,這一舉措預計每年可直接節電數千萬度,再加上數據中心既有 PUE 方案帶來的節能降耗,預計每年 可減少二氧化碳排放數萬噸。
展望 基于英特爾智慧節能方案的中國聯通節能減排策略實現了預期的成效,在不對數據中心進行硬件改造的前提下,雙方顯著降低了 5GC 網元、大數據業務中的服務器能耗,同時滿足業務工作負 載的 SLA 級別。得益于服務器的節能減排,并疊加其他節能措 施,中國聯通能夠大范圍、更大規模地提升節能減排水平,助力綠色數據中心建設。英特爾還發布了 “英特爾綠色數據中心技術框架”,與客戶和產業鏈共同推動數據中心綠色可持續發展。在當前合作成就的基礎上,中國聯通與英特爾計劃開展進一步合作,持續增強節能水平,合作方向包括:
? 將英特爾智慧節能方案擴展到更多的業務場景,助力中國聯通 實現雙碳目標。
? 將節能范圍擴展到網絡、外設、數據中心環境等領域,盡可能 地降低數據中心整體能耗水平。
? 充分利用新一代英特爾? 處理器上的性能核和能效核策略,基于 工作負載對內核進行高效調度,實現性能與能耗的卓越平衡。 ? 在對 CPU 能耗進行精準控制的同時,推動創新的節能技術在 GPU 等更多加速器中的應用。
? 強化實時學習、自動機器學習 (AutoML) 和增強學習等創新技 術的應用,進一步提升節能效果。
通過上述合作探索,英特爾將助力中國聯通形成更高效、更智能 的數據中心能耗管理策略,顯著提升節能減排水平,更快更好地 將構建新型數字信息基礎設施行動計劃落到實處。
評論