DeepSeek的下一代模型因Nvidia GPU對中國的出口限制而推遲
據(jù) The Information 報(bào)道,DeepSeek 今年早些時(shí)候的 R1 AI 模型吸引了大量關(guān)注,但由于 Nvidia 的 H20 處理器在中國短缺,下一代 R2 模型的開發(fā)似乎已經(jīng)停滯不前。DeepSeek 本身尚未對其 R2 模型何時(shí)可用發(fā)表評論。
本文引用地址:http://www.bjwjmy.cn/article/202506/471777.htmDeepSeek 使用由 50000 個(gè) Hopper GPU 組成的集群(包括 30000 個(gè) H20、10000 個(gè) H800 和 10000 個(gè) H100),該 GPU 由其投資者 High-Flyer Capital Management 獲得,用于訓(xùn)練其 R1 模型。目前尚不清楚 R2 是否已經(jīng)完全預(yù)訓(xùn)練。The Information 報(bào)道援引兩位熟悉該項(xiàng)目的人士的話說,DeepSeek 團(tuán)隊(duì)一直在深入研究該模型,但首席執(zhí)行官梁文峰對其能力仍不滿意。在批準(zhǔn)模型進(jìn)行部署之前,內(nèi)部工作將繼續(xù)進(jìn)行以提高性能。
R1 迅速被廣泛地采用,包括私營初創(chuàng)公司、大公司和政府附屬團(tuán)體。這些用戶中的大多數(shù)在 Nvidia 的 H20 處理器上運(yùn)行該模型。根據(jù) The Information 報(bào)告,現(xiàn)在 H20 的發(fā)貨受到限制,它已經(jīng)造成了問題,限制了 R1 今天的使用方式,并使為 R2 的推出做準(zhǔn)備變得更加困難。
據(jù) The Information 援引 DeepSeek 公司的員工稱,如果 DeepSeek 即將推出的 R2 模型的能力超過目前可用的開放替代方案,預(yù)計(jì)使用量將激增,超出中國云平臺的處理能力。據(jù)說大多數(shù)依賴早期 R1 模型的組織都使用 Nvidia 的 H20 處理器來作它,而這些處理器現(xiàn)在供不應(yīng)求。
美國政府在 4 月中旬限制了 Nvidia 用于 AI 訓(xùn)練和推理的 H20 處理器的銷售。雖然該單元是流行的 H100 GPU 的嚴(yán)重縮減版本,但由于中國人工智能公司依賴 Nvidia 的 CUDA 軟件堆棧,H20 在中華人民共和國的此類實(shí)體中是一個(gè)非常受歡迎的產(chǎn)品,Nvidia 每個(gè)季度銷售價(jià)值數(shù)十億美元的 H20 處理器。
據(jù)報(bào)道,DeepSeek 的 AI 軟件針對 Nvidia 的硬件進(jìn)行了優(yōu)化,這使得該公司特別容易受到美國政策決策的影響。盡管該公司聲稱開發(fā)其模型使用的資源遠(yuǎn)少于 OpenAI 等美國公司,但最近的出口限制凸顯了一個(gè)關(guān)鍵的弱點(diǎn):中國的頂級 AI 公司仍然嚴(yán)重依賴美國硬件。與此同時(shí),OpenAI 非正式地指責(zé) DeepSeek 在 R1 開發(fā)過程中使用了其專有模型,盡管該公司尚未公開回應(yīng)這些說法。
評論