DeepSeek首次披露:理論上一天收入409萬 成本利潤率545% 英偉達CEO黃仁勳要坐不住了

雷遞財經
03-01

雷遞網 樂天 3月1日

AI大模型DeepSeek日前在知乎貼文《DeepSeek-V3 / R1 推理系統概覽》,DeepSeek稱,在最近的 24 小時裏(北京時間 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3 和 R1 推理服務佔用節點總和,峯值佔用爲 278 個節點,平均佔用 226.75 個節點(每個節點爲 8 個 H800 GPU)。

“假定 GPU 租賃成本爲 2 美金/小時,總成本爲 $87,072/天。如果所有 tokens 全部按照 DeepSeek R1 的定價[1]計算,理論上一天的總收入爲 $562,027(約409萬元),成本利潤率545%。”

這意味着,DeepSeek理論上一天的利潤爲474,955美元(約350萬元)。

據悉,DeepSeek R1 的定價:$0.14 / 百萬輸入 tokens (緩存命中),$0.55 / 百萬輸入 tokens (緩存未命中),$2.19 / 百萬輸出 tokens。

DeepSeek還指出,實際上沒有這麼多收入,因爲 V3 的定價更低,同時收費服務只佔了一部分,另外夜間還會有折扣。

硅基流動創始人、CEO袁進輝指出,“主要是V3/R1架構和其它主流模型差別太大了,由大量小Expert組成,導致瞄準其它主流模型結構開發的系統都不再有效,必須按照DeepSeek報告描述的方法才能達到最好的效率,而開發這樣的系統難度很高,需要時間,幸好這周DeepSeek五連發已經把主要模塊開源出來了,降低了社區復現的難度。”

“這些成果充分體現DeepSeek團隊第一性原理思考方式和強悍的意志,他們應該是首先是基於某些原因想到了用這樣的模型結構,然後發現這樣的結構無論是訓練還是推理,要做好都有非常大的工程挑戰,這些問題在他們工程團隊來說並不是搞不定的,關鍵是花那麼大力氣做完是否有大的收益呢,在最終結果出來前,誰也說不準,他們還是賭了,結果是賭對了。”

更有人評論稱,懷疑DeepSeek的模型結構就是爲了榨乾系統和芯片的每一滴油水來設計的。

這可能讓OpenAI CEO Altman(奧特曼)很不好想。外媒曾曝出,OpenAI在2024年可能面臨驚人的50億美元虧損,並可能在未來12個月內耗盡其現金儲備。

DeepSeek也挑戰了市場對AI、估值和高支出的敘述。DeepSeek的高性能預算產品也“質疑未來在英偉達芯片和開發上花費數千億美元的必要性”。

DeepSeek火爆以來,英偉達在2025年就失去了上漲的勢頭。有行業人士評論稱,DeepSeek這一波操作,英偉達等公司的股價可能又撐不住了。

以下是DeepSeek-V3 / R1 推理系統概覽在知乎貼文:

DeepSeek-V3 / R1 推理系統的優化目標是:更大的吞吐,更低的延遲。爲了實現這兩個目標,我們的方案是使用大規模跨節點專家並行(Expert Parallelism / EP)。

首先 EP 使得 batch size 大大增加,從而提高 GPU 矩陣乘法的效率,提高吞吐。其次 EP 使得專家分散在不同的 GPU 上,每個 GPU 只需要計算很少的專家(因此更少的訪存需求),從而降低延遲。但 EP 同時也增加了系統的複雜性。

複雜性主要體現在兩個方面:EP 引入跨節點的傳輸。爲了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行。EP 涉及多個節點,因此天然需要 Data Parallelism(DP),不同的 DP 之間需要進行負載均衡。

因此,本文的主要內容是如何使用 EP 增大 batch size,如何隱藏傳輸的耗時,如何進行負載均衡。

大規模跨節點專家並行(Expert Parallelism / EP)

由於 DeepSeek-V3 / R1 的專家數量衆多,並且每層 256 個專家中僅激活其中 8 個。模型的高度稀疏性決定了我們必須採用很大的 overall batch size,才能給每個專家提供足夠的 expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行(Expert Parallelism / EP)。

我們採用多機多卡間的專家並行策略來達到以下目的:

Prefill:路由專家 EP32、MLA 和共享專家 DP32,一個部署單元是 4 節點,32 個冗餘路由專家,每張卡 9 個路由專家和 1 個共享專家

Decode:路由專家 EP144、MLA 和共享專家 DP144,一個部署單元是 18 節點,32 個冗餘路由專家,每張卡 2 個路由專家和 1 個共享專家

計算通信重疊

多機多卡的專家並行會引入比較大的通信開銷,所以我們使用了雙 batch 重疊來掩蓋通信開銷,提高整體吞吐。

對於 prefill 階段,兩個 batch 的計算和通信交錯進行,一個 batch 在進行計算的時候可以去掩蓋另一個 batch 的通信開銷;

對於 decode 階段,不同階段的執行時間有所差別,所以我們把 attention 部分拆成了兩個 stage,共計 5 個 stage 的流水線來實現計算和通信的重疊。

儘可能地負載均衡

由於採用了很大規模的並行(包括數據並行和專家並行),如果某個 GPU 的計算或通信負載過重,將成爲性能瓶頸,拖慢整個系統;同時其他 GPU 因爲等待而空轉,造成整體利用率下降。因此我們需要儘可能地爲每個 GPU 分配均衡的計算負載、通信負載。

1,Prefill Load Balancer

核心問題:不同數據並行(DP)實例上的請求個數、長度不同,導致 core-attention 計算量、dispatch 發送量也不同優化目標:各 GPU 的計算量儘量相同(core-attention 計算負載均衡)、輸入的 token 數量也儘量相同(dispatch 發送量負載均衡),避免部分 GPU 處理時間過長

2,Decode Load Balancer

核心問題:不同數據並行(DP)實例上的請求數量、長度不同,導致 core-attention 計算量(與 KVCache 佔用量相關)、dispatch 發送量不同優化目標:各 GPU 的 KVCache 佔用量儘量相同(core-attention 計算負載均衡)、請求數量儘量相同(dispatch 發送量負載均衡)

3,Expert-Parallel Load Balancer

核心問題:對於給定 MoE 模型,存在一些天然的高負載專家(expert),導致不同 GPU 的專家計算負載不均衡優化目標:每個 GPU 上的專家計算量均衡(即最小化所有 GPU 的 dispatch 接收量的最大值)

線上系統的實際統計數據DeepSeek V3 和 R1 的所有服務均使用 H800 GPU,使用和訓練一致的精度,即矩陣計算和 dispatch 傳輸採用和訓練一致的 FP8 格式,core-attention 計算和 combine 傳輸採用和訓練一致的 BF16,最大程度保證了服務效果。

另外,由於白天的服務負荷高,晚上的服務負荷低,因此我們實現了一套機制,在白天負荷高的時候,用所有節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。

在最近的 24 小時裏(北京時間 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3 和 R1 推理服務佔用節點總和,峯值佔用爲 278 個節點,平均佔用 226.75 個節點(每個節點爲 8 個 H800 GPU)。假定 GPU 租賃成本爲 2 美金/小時,總成本爲 $87,072/天。

在 24 小時統計時段內,DeepSeek V3 和 R1:輸入 token 總數爲 608B,其中 342B tokens(56.3%)命中 KVCache 硬盤緩存。

輸出 token 總數爲 168B。平均輸出速率爲 20~22 tps,平均每輸出一個 token 的 KVCache 長度是 4989。

平均每臺 H800 的吞吐量爲:對於 prefill 任務,輸入吞吐約 73.7k tokens/s(含緩存命中);對於 decode 任務,輸出吞吐約 14.8k tokens/s。

以上統計包括了網頁、APP 和 API 的所有負載。如果所有 tokens 全部按照 DeepSeek R1 的定價[1]計算,理論上一天的總收入爲 $562,027,成本利潤率 545%。

當然我們實際上沒有這麼多收入,因爲 V3 的定價更低,同時收費服務只佔了一部分,另外夜間還會有折扣。

———————————————

雷遞由媒體人雷建平創辦,若轉載請寫明來源。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10