AI 顛覆者 DeepSeek 的下一代模型因 Nvidia GPU 對中國出口限制而延遲——AI GPU 短缺阻礙開發(fā)
(圖片來源:英偉達)
DeepSeek 憑借其今年的 R1 AI 模型吸引了大量關(guān)注,但似乎下一代 R2 模型的開發(fā)因中國 Nvidia H20 處理器的短缺而停滯,據(jù) 信息報道 。DeepSeek 本身尚未評論其 R2 模型的發(fā)布時間。
DeepSeek 使用由其投資者 High-Flyer Capital Management 獲得的包含 50,000 個 Hopper GPU 的集群——其中包括 30,000 個 H20、10,000 個 H800 和 10,000 個 H100——來訓練其 R1 模型。尚不清楚 R2 是否已經(jīng)完全預(yù)訓練。 信息 報道稱,DeepSeek 團隊一直在 intensively 工作,但 CEO 梁文鋒尚未對其能力感到滿意。在模型獲得部署批準之前,團隊將繼續(xù)內(nèi)部工作以提升性能。
R1 已迅速且廣泛地被各類用戶采用,包括私營初創(chuàng)公司、大型企業(yè)和政府相關(guān)機構(gòu)。這些用戶大多在英偉達的 H20 處理器上運行該模型?,F(xiàn)在 H20 的出貨受到限制,這已經(jīng)引發(fā)了問題,限制了 R1 當前的使用,并使 R2 的推出準備變得更加困難,據(jù) The Information 報道。
如果 DeepSeek 即將推出的 R2 模型的性能超過了目前可用的開源替代方案,預(yù)計其使用量將激增,超出中國云平臺的處理能力,據(jù)那些公司員工在被 The Information引用時表示。據(jù)說依賴早期 R1 模型的多數(shù)組織使用的是英偉達的 H20 處理器,而目前 H20 處于短缺狀態(tài)。
美國政府在 4 月中旬限制了英偉達 H20 處理器用于 AI 訓練和推理的銷售。雖然該單元是流行 H100 GPU 的一個大幅簡化版本,但由于中國 AI 公司對英偉達的 CUDA 軟件堆棧的依賴,H20 在中華人民共和國境內(nèi)非常受歡迎,英偉達每個季度都銷售了數(shù)十億美元價值的 H20 處理器。
據(jù)稱,DeepSeek 的人工智能軟件針對英偉達的硬件進行了優(yōu)化,這使得該公司特別容易受到美國政策決策的影響。盡管該公司聲稱其模型的開發(fā)所使用的資源遠少于 OpenAI 等美國公司,但最近的出口限制凸顯了一個關(guān)鍵弱點:中國頂尖的人工智能公司仍然嚴重依賴美國硬件。與此同時,OpenAI 私下指責 DeepSeek 在 R1 的開發(fā)過程中使用了其專有模型,盡管該公司尚未公開回應(yīng)這些指控。
評論