谷歌新一代云端AI芯片TPU v5p發布,性能提升2.8倍
12月7日凌晨,谷歌(Google)在發布多模態大模型Gemini的同時,還推出了全新的面向云端AI加速的TPU v5p ,這也是谷歌迄今為止功能最強大且最具成本效益的 TPU(云張量處理單元)。
據介紹,每個 TPU v5p Pod 由多達 8,960 個芯片組成,使用最高帶寬的芯片間連接(每芯片 4,800 Gbps)進行互連,確保快速傳輸速度和最佳性能。
在AI性能方面,TPU v5p能夠提供459 teraFLOPS(每秒可執行459萬億次浮點運算)的bfloat16(16位浮點數格式)性能或918 teraOPS(每秒可執行918萬億次整數運算)的Int8(執行8位整數)性能,支持95GB的高帶寬內存,能夠以2.76 TB/s的速度傳輸數據。
與TPU v4相比,新發布的TPU v5p具有兩倍的FLOPS(每秒浮點運算)和三倍的高內存帶寬提升,這在人工智能領域是令人驚嘆的。
此外,在模型訓練方面,TPU v5p 在 LLM(大語言模型)訓練速度上顯示出 2.8 倍的代際提升,即使相比TPU v5e也有約50%的提升。Google還擠出更多的計算能力,因為 TPU v5p“就每個 Pod 的總可用 FLOP 而言,可擴展性比 TPU v4 高 4 倍”。
0
總結來說,TPU v5p與 TPU v4 相比:
浮點運算次數增加了 2 倍(459 TFLOPs Bf16 / 918 TOPs INT8)
內存容量比 TPU v4 (95 GB HBM) 高出 3 倍
LLM 培訓速度提高 2.8 倍
嵌入密集模型訓練速度提高 1.9 倍
帶寬增加 2.25 倍(2765 GB/秒 vs 1228 GB/秒)
芯片間互連帶寬是原來的 2 倍(4800 Gbps 與 2400 Gbps)
谷歌已經認識到在擁有最好的硬件和軟件資源方面取得了明顯的成功,這就是該公司擁有人工智能超級計算機的原因,它是一組旨在協作工作以實現現代人工智能工作負載的元素。谷歌集成了性能優化計算、最佳存儲和液體冷卻等功能,以充分利用巨大的功能,輸出的性能確實是行業領先。
在軟件方面,Google已經加強了使用開放軟件來調整其人工智能工作負載,以確保其硬件的最佳性能。
以下是AI Hypercomputer新增軟件資源的概要:
對流行的 ML 框架(例如 JAX、TensorFlow 和 PyTorch)的廣泛支持開箱即用。JAX 和 PyTorch 均由 OpenXLA 編譯器提供支持,用于構建復雜的 LLM。XLA 充當基礎骨干,支持創建復雜的多層模型(使用 PyTorch/XLA 在云 TPU 上進行 Llama 2 訓練和推理)。它優化了各種硬件平臺上的分布式架構,確保針對不同的 AI 使用案例進行易于使用且高效的模型開發(AssemblyAI 利用 JAX/XLA 和 Cloud TPU 進行大規模 AI 語音)。
開放且獨特的多片訓練和多主機推理軟件分別使擴展、訓練和服務工作負載變得順利和簡單。開發人員可以擴展到數萬個芯片來支持要求苛刻的人工智能工作負載。
與 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成,提供高效的資源管理、一致的操作環境、自動擴展、節點池自動配置、自動檢查點、自動恢復和及時的故障恢復。
Google的人工智能革命性方法通過其新的硬件和軟件元素顯而易見,這些元素都將打破限制該行業的障礙。看看新的 Cloud TPU v5p 處理單元如何與 AI 超計算機一起幫助正在進行的AI開發將會很有趣,但有一點是肯定的,它們肯定會加劇競爭。
編輯:芯智訊-浪客劍
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。