DeepSeek的下一代模型因Nvidia GPU對(duì)中國(guó)的出口限制而推遲
據(jù) The Information 報(bào)道,DeepSeek 今年早些時(shí)候的 R1 AI 模型吸引了大量關(guān)注,但由于 Nvidia 的 H20 處理器在中國(guó)短缺,下一代 R2 模型的開發(fā)似乎已經(jīng)停滯不前。DeepSeek 本身尚未對(duì)其 R2 模型何時(shí)可用發(fā)表評(píng)論。
本文引用地址:http://www.104case.com/article/202506/471777.htmDeepSeek 使用由 50000 個(gè) Hopper GPU 組成的集群(包括 30000 個(gè) H20、10000 個(gè) H800 和 10000 個(gè) H100),該 GPU 由其投資者 High-Flyer Capital Management 獲得,用于訓(xùn)練其 R1 模型。目前尚不清楚 R2 是否已經(jīng)完全預(yù)訓(xùn)練。The Information 報(bào)道援引兩位熟悉該項(xiàng)目的人士的話說,DeepSeek 團(tuán)隊(duì)一直在深入研究該模型,但首席執(zhí)行官梁文峰對(duì)其能力仍不滿意。在批準(zhǔn)模型進(jìn)行部署之前,內(nèi)部工作將繼續(xù)進(jìn)行以提高性能。
R1 迅速被廣泛地采用,包括私營(yíng)初創(chuàng)公司、大公司和政府附屬團(tuán)體。這些用戶中的大多數(shù)在 Nvidia 的 H20 處理器上運(yùn)行該模型。根據(jù) The Information 報(bào)告,現(xiàn)在 H20 的發(fā)貨受到限制,它已經(jīng)造成了問題,限制了 R1 今天的使用方式,并使為 R2 的推出做準(zhǔn)備變得更加困難。
據(jù) The Information 援引 DeepSeek 公司的員工稱,如果 DeepSeek 即將推出的 R2 模型的能力超過目前可用的開放替代方案,預(yù)計(jì)使用量將激增,超出中國(guó)云平臺(tái)的處理能力。據(jù)說大多數(shù)依賴早期 R1 模型的組織都使用 Nvidia 的 H20 處理器來作它,而這些處理器現(xiàn)在供不應(yīng)求。
美國(guó)政府在 4 月中旬限制了 Nvidia 用于 AI 訓(xùn)練和推理的 H20 處理器的銷售。雖然該單元是流行的 H100 GPU 的嚴(yán)重縮減版本,但由于中國(guó)人工智能公司依賴 Nvidia 的 CUDA 軟件堆棧,H20 在中華人民共和國(guó)的此類實(shí)體中是一個(gè)非常受歡迎的產(chǎn)品,Nvidia 每個(gè)季度銷售價(jià)值數(shù)十億美元的 H20 處理器。
據(jù)報(bào)道,DeepSeek 的 AI 軟件針對(duì) Nvidia 的硬件進(jìn)行了優(yōu)化,這使得該公司特別容易受到美國(guó)政策決策的影響。盡管該公司聲稱開發(fā)其模型使用的資源遠(yuǎn)少于 OpenAI 等美國(guó)公司,但最近的出口限制凸顯了一個(gè)關(guān)鍵的弱點(diǎn):中國(guó)的頂級(jí) AI 公司仍然嚴(yán)重依賴美國(guó)硬件。與此同時(shí),OpenAI 非正式地指責(zé) DeepSeek 在 R1 開發(fā)過程中使用了其專有模型,盡管該公司尚未公開回應(yīng)這些說法。
評(píng)論