DeepSeek公佈成本、收入和利潤率!最高可日賺346萬

智東西
03-01

作者 | 程茜

編輯 | 心緣

智東西3月1日消息,DeepSeek的開源周竟然還有彩蛋!開源第六天,DeepSeek不僅放出了DeepSeek-V3/R1推理系統技術祕籍,還公開了每日成本和理論收入!

DeepSeek統計了2月27日24點到2月28日24點,計算出其每日總成本爲87072美元(摺合人民幣約63萬元)。如果所有Token都以DeepSeek-R1的價格計費,每日總收入將爲562027美元(摺合人民幣約409萬元),成本利潤率達到545%。也就是說,理論上DeepSeek每日淨賺474955美元(摺合人民幣約346萬元)

但實際情況是,DeepSeek的收入大幅下降。由於DeepSeek-V3定價低於R1;網頁端和應用程序免費,只有部分服務有收入;非高峯時段還有夜間折扣,使得其實際收入並沒有這麼高。

此外,DeepSeek還公開了DeepSeek-V3/R1推理系統概述:爲了達到推理更高的吞吐量和更低的延遲,研究人員採用了跨節點的專家諮詢(EP),並且利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡,應對EP的系統複雜性挑戰。

發佈一小時,GitHub Star數已超過5600。

評論區的網友頻頻cue OpenAI,直呼“被搶劫”了!

還有網友以OpenAI的定價幫DeepSeek算賬:

一、每日總成本爲87072美元,利潤率理論上最高545%

DeepSeek V3和R1的所有服務均使用H800 GPU,使用和訓練一致的精度,即矩陣計算和dispatch傳輸採用和訓練一致的FP8格式,core-attention計算和combine傳輸採用和訓練一致的BF16,最大程度保證了服務效果。

此外,由於白天的高服務負載和晚上的低負載,DeepSeek在白天高峯時段跨所有節點部署推理服務。在低負載的夜間時段減少了推理節點,並將資源分配給研究和訓練。

在過去的24小時內(2月27日24點到2月28日24點),V3和R1推理服務的合併峯值節點佔用率達到278,平均佔用率爲226.75個節點(每個節點包含8個H800 GPU)。假設一個H800 GPU的租賃成本爲每小時2美元,則每日總成本爲87072美元

▲推理服務的H800節點計數

在24小時統計週期內(2月27日24點到2月28日24點),V3和R1:

總輸入Token 608B,其中342B Token(56.3%)命中KVCache硬盤緩存。

總輸出Token 168B,平均輸出速度爲每秒20-22 tps,每個輸出Token的平均kvcache長度爲4989個Token。

每個H800節點在prefill期間提供約73.7k token/s輸入(包括緩存命中)的平均吞吐量,或在解碼期間提供約14.8k token/s輸出。

以上統計數據包括所有來自web、APP、API的用戶請求。

如果所有Token都以DeepSeek-R1的價格計費,每日總收入將爲562027美元,成本利潤率爲545%。

*R1的定價:0.14美元輸入Token(緩存命中),0.55美元輸入令牌(緩存未命中),2.19美元輸出令牌。

然而,DeepSeek的實際收入並沒有這麼多,其原因是DeepSeek-V3的定價明顯低於R1;網頁端和應用程序免費,所有隻有一部分服務被貨幣化;夜間折扣在非高峯時段自動適用。

▲成本和理論收入

二、EP增加系統複雜性,三大策略應對

DeepSeek的解決方案採用了跨節點的專家並行(EP)

首先,EP顯著擴展了批處理大小,增強了GPU矩陣計算效率並提高了吞吐量;其次,EP將專家分佈在不同GPU上,每個GPU只處理專家的一小部分(減少內存訪問需求),從而降低延遲。

然而,EP在兩個方面增加了系統複雜性:EP引入跨節點的傳輸,爲了優化吞吐,需要設計合適的計算流程使得傳輸和計算可以同步進行;EP涉及多個節點,因此天然需要Data Parallelism(DP),不同的DP之間需要進行負載均衡。

DeepSeek通過三種方式應對了這些挑戰:

利用EP增大batch size、將通信延遲隱藏在計算之後、執行負載均衡。

1、大規模跨節點專家並行(EP)

由於DeepSeek-V3/R1的專家數量衆多,並且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了其必須採用很大的overall batch size,才能給每個專家提供足夠的expert batch size,從而實現更大的吞吐、更低的延時。需要大規模跨節點專家並行(Expert Parallelism/EP)。

DeepSeek採用多機多卡間的專家並行策略來達到以下目的:

Prefill:路由專家EP32、MLA和共享專家DP32,一個部署單元是4節點,32個冗餘路由專家,每張卡9個路由專家和1個共享專家

Decode:路由專家EP144、MLA和共享專家DP144,一個部署單元是18節點,32個冗餘路由專家,每張卡2個路由專家和1個共享專家

2、計算-通信重疊

多機多卡的專家並行會引入比較大的通信開銷,所以使用了雙batch重疊來掩蓋通信開銷,提高整體吞吐。

對於prefill階段,兩個batch的計算和通信交錯進行,一個batch在進行計算的時候可以去掩蓋另一個batch的通信開銷。

▲預充階段的通信-計算重疊

對於decode階段,不同階段的執行時間有所差別,所以DeepSeek把attention部分拆成了兩個stage,共計5個stage的流水線來實現計算和通信的重疊。

▲解碼階段的通信-計算重疊

3、實現最佳負載均衡

由於採用了很大規模的並行(包括數據並行和專家並行),如果某個GPU的計算或通信負載過重,將成爲性能瓶頸,拖慢整個系統;同時其他GPU因爲等待而空轉,造成整體利用率下降。因此我們需要儘可能地爲每個 GPU 分配均衡的計算負載、通信負載。

Prefill Load Balancer的核心問題:不同數據並行(DP)實例上的請求個數、長度不同,導致core-attention計算量、dispatch發送量也不同。

其優化目標是,各GPU的計算量儘量相同(core-attention計算負載均衡)、輸入的token數量也儘量相同(dispatch發送量負載均衡),避免部分GPU處理時間過長。

Decode Load Balancer的關鍵問題是,不同數據並行(DP)實例上的請求數量、長度不同,導致core-attention計算量(與KVCache佔用量相關)、dispatch發送量不同。

其優化目標是,各GPU的KVCache佔用量儘量相同(core-attention計算負載均衡)、請求數量儘量相同(dispatch發送量負載均衡)。

專家並行負載均衡器的核心問題:對於給定MoE模型,存在一些天然的高負載專家(expert),導致不同GPU的專家計算負載不均衡。

其優化目標是,每個GPU上的專家計算量均衡(即最小化所有GPU的dispatch接收量的最大值)。

▲DeepSeek在線推理系統圖

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10