新聞中心

        EEPW首頁 > 網絡與存儲 > 設計應用 > 數據中心重新布線能否使 AI 速度提高 6 倍?

        數據中心重新布線能否使 AI 速度提高 6 倍?

        —— Cornelis Networks 的無擁塞架構采用以太網和 InfiniBand
        作者: 時間:2025-06-24 來源:IEEE 收藏

        在過去,網絡就是連接少量本地計算機。但時代已經變了。在 主導的世界中,訣竅是協調數以萬計的服務器的活動來訓練大型語言模型,而不會延遲通信?,F在有一個經過優化的架構來做到這一點。Cornelis Networks 表示,其 CN500 網絡結構最大限度地提高了  性能,支持多達 500,000 臺計算機或處理器的部署(比現在高出一個數量級),并且不會增加延遲。

        本文引用地址:http://www.104case.com/article/202506/471580.htm

        這項新技術為網絡世界帶來了第三個主要產品,即以太網和 InfiniBand。它旨在使 和高性能計算機(HPC 或超級計算機)能夠以更高的效率實現更快、更可預測的完成時間。對于 HPC,Cornelis 聲稱其技術的性能優于 InfiniBand NDR(2022 年推出的版本),每秒傳遞的消息數量是 InfiniBand 的兩倍,延遲減少了 35%。對于 AI 應用程序,與基于以太網的協議相比,它的通信提高了 6 倍。

        長期以來,以太網一直是局域網 (LAN) 的代名詞。軟件補丁使其通信協議經得起時間的考驗。InfiniBand 的發明是一項改進,但它的設計目標仍然相同:連接少量本地設備?!爱斶@些技術被發明出來時,它們與并行計算無關,”總部位于賓夕法尼亞州的 Cornelis 的聯合創始人、總裁兼首席運營官 Philip Murphy 說。

        開始涌現時,工程師需要一種新的網絡解決方案。由于不同的系統使用不同的軟件,因此無法共享資源,因此擴展以太網和 InfiniBand 等設備以適應最繁忙的運營時段被證明是具有挑戰性的。“這激發了整個云的發展,”Murphy 說。在不同的計算機甚至不同的組織之間共享基于云的 CPU 成為當今的解決方案。

        但是,當先驅試圖最大限度地增加在一臺服務器上運行的應用程序數量時,Murphy 和他的同事們看到了相反方法的價值:最大限度地增加在一個應用程序上運行的處理器數量?!斑@需要一種完全不同的網絡解決方案,”他說,而這正是 Cornelis 現在提供的。該公司的 Omni-Path 架構由 Intel 開發,用于超級計算應用,例如模擬氣候模型或藥物設計的分子相互作用,可提供最大的吞吐量和零數據包丟失。

        無擁堵數據高速公路

        協調處理器以訓練 AI 模型需要以非常高的帶寬交換許多消息(數據包)。每毫秒的消息速率很重要,延遲也很重要,即收件人需要多長時間才能響應。

        在整個網絡中共享如此多的數據包的一個主要挑戰是流量擁塞。Murphy 解釋說,您需要一種方法來可靠地繞過擁塞點路由數據包,而不會產生其他問題。例如,如果數據包通過不同的路由到達同一目的地,則它們可能會無序到達。

        Cornelis 的動態自適應路由算法通過圍繞短期擁塞事件進行路由來緩解擁塞,而其擁塞控制架構則圍繞“熱門”目的地路由流量?!叭绻粋€體育場有我們都想去的活動,你不希望經過體育場的交通也被堵在那里,”Murphy 說。中央起搏技術實現了這種擁塞控制架構。交換機可以看到流量形成的位置,然后告訴發送者放慢,直到擁塞消散。“考慮在進入高速公路匝道時緩解交通,”Murphy 解釋說。

        另一個挑戰是避免延遲。在傳統的以太網架構中,發送數據包需要在端點有足夠的內存?!叭绻野l送給您,但您的內存耗盡了,您必須回來告訴我,”Murphy 說。這是一個很長的循環,需要不可擴展的大型緩沖區。相反,Cornelis 使用一種稱為基于信用的流控制的算法,該算法會提前分配內存?!澳悴恍枰嬖V我任何事情,我就會知道我還能寄多少錢,”Murphy 說。

        最后,如果 GPU 或鏈路發生故障,系統可以避免陷入停頓。在傳統架構中,如果服務器宕機,應用程序也會宕機。修復它需要從最新的檢查點重新啟動,而該檢查點本身需要大量的計算能力來創建。“想象一下,如果每次在文檔上點擊'保存'時,都必須等待 20 分鐘,”Murphy 說。相反,由于 Cornelis Networks 分布在多臺計算機上,因此它可以保持應用程序運行,盡管帶寬略低,直到可以替換故障鏈路,而無需檢查點。

        高效的 AI

        從物理上講,CN5000 產品是圍繞定制芯片構建的網卡。網卡插入每臺服務器,“就像將以太網卡插入家中的 PC 一樣,”Murphy 解釋說。架頂式交換機通過電纜連接到每臺服務器和其他交換機,而控制器級交換機則帶有 48 或 576 個端口,用于連接到機架式交換機?!懊颗_服務器都插入了卡,因此您可以構建數千個終端節點集群,”Murphy 說。

        該公司的主要市場是希望升級到新集群以實現 AI 或更快 HPC 模擬的組織。這是通過 Cornelis 合作的三家原始設備制造商之一完成的,這些制造商制造服務器和網絡交換機。OEM 從 Cornelis 購買實體卡,并在完成訂單之前將其插入服務器。

        直到最近,訓練神經網絡模型還是一次性的。但現在,訓練數萬億個參數的 AI 模型意味著反復微調或更新。Cornelis 希望利用這一點?!叭绻悴徊捎?AI,你就會倒閉。如果你使用 AI 效率低下,你仍然會倒閉,“Murphy 說?!拔覀兊目蛻粝M员M可能最有效的方式采用 AI?!?/p>



        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 金秀| 台江县| 康保县| 临沂市| 武威市| 张家界市| 江津市| 海丰县| 鄂托克旗| 叶城县| 永新县| 英山县| 千阳县| 迁安市| 凌源市| 黄山市| 五常市| 河北省| 库尔勒市| 长白| 丘北县| 富平县| 壤塘县| 神农架林区| 吴桥县| 贡觉县| 莎车县| 芜湖县| 麦盖提县| 宜昌市| 额济纳旗| 连南| 漳平市| 鄯善县| 星子县| 四会市| 两当县| 锡林郭勒盟| 喜德县| 北流市| 同心县|