2025年2月27日,英偉達發佈了2025財年第四季度財報。
公司報告稱,Q4收入達到了393億美元,其中淨利潤220.91億美元,同比增長80%。調整後的每股收益爲0.89美元,均超過了分析師預期的380.5億美元和0.84美元。此外,英偉達預計第一季度收入將達到430億美元,遠高於分析師預測的417.8億美元
全年收入創紀錄達到1305億美元,同比增長114%。
然而,英偉達股價當天卻暴跌!
股價下跌8.48%,創下一個月來最大單日跌幅,市值蒸發約2716億美元(約合1.98萬億元人民幣)。
發生什麼事了?
一週前,DeepSeek發佈公告,稱將迎來“開源周”。
意思是未來一週每天發佈一部分開源技術,模仿起了OpenAI的騷操作。
不過,和OpenAI擠牙膏不同的是,DeepSeek放出的每一個開源工具都是刺向英偉達的刺刀,刀刀見血。

讓我們看看這個周,DeepSeek都開源了些啥。
我儘量用大家都能看得懂的大白話描述。
首日:FlashMLA橫空出世,GPU算力調度迎來智能時代
FlashMLA的發佈猶如一顆重磅炸彈,直擊AI算力浪費的痛點。傳統GPU在處理自然語言等任務時,面對長短不一的數據序列往往"大材小用",造成算力浪費。FlashMLA則如同一位智能交通調度員,能夠根據序列長度動態調配計算資源,實現"精準打擊"。這一創新不僅大幅提升GPU利用率,更被業界視爲國產GPU性能突圍的關鍵一步。發佈僅6小時,GitHub收藏量便突破5000次,其影響力可見一斑。
次日:DeepEP打通MoE模型任督二脈,通信效率飆升
MoE(混合專家模型)作爲AI大模型的重要架構,其訓練和推理效率高度依賴專家模型間的通信效率。DeepEP作爲首個開源EP通信庫,爲MoE模型量身打造了一條"數據高速公路"。它支持優化的全對全通信模式,並原生支持FP8低精度運算調度,在降低計算資源消耗的同時,實現數據的高速傳輸。DeepEP的出現,讓MoE模型的訓練和推理效率邁上新臺階。
第三日:DeepGEMM劍指矩陣計算,FP8性能突破天際
矩陣乘法是AI計算的基石,其性能優化直接影響大模型的訓練成本和效率。DeepGEMM憑藉DeepSeek-V3的細粒度scaling技術,僅用300行代碼便實現了高效的FP8通用矩陣乘法。在Hopper GPU上,其計算性能最高可達1350+ FP8 TFLOPS,媲美甚至超越專家調優的庫。更令人驚歎的是,DeepGEMM無需編譯,通過輕量級JIT模塊即可實現運行時編譯,極大降低了使用門檻。
第四日:DualPipe+EPLB雙劍合璧,並行計算效率飆升30%
並行計算是提升AI算力的重要手段,但傳統管道並行存在"氣泡"問題,造成資源浪費。DualPipe通過雙向管道並行算法,實現計算與通信階段的雙向重疊,將硬件資源利用率提升超30%。EPLB則針對MoE架構,通過冗餘專家策略和啓發式分配算法,優化GPU間的負載分佈,減少GPU閒置現象。兩者相輔相成,爲AI大模型訓練注入強勁動力。
第五日:3FS文件系統橫空出世,數據訪問速度再創新高
AI模型的訓練和推理離不開海量數據的快速訪問。3FS文件系統專爲現代SSD和RDMA網絡帶寬設計,能夠實現高速數據訪問,顯著提升AI模型訓練和推理的效率。它的出現,爲AI算力瓶頸的突破再添一把利器。
不難發現,這五天發佈的開源項目,幾乎每一個都最大限度的壓榨N卡的性能。
這也是爲什麼DeepSeek能用幾千張卡訓練出的大模型,能和OpenAI幾萬張卡Grok幾十萬張卡的效果打的有來有回。
要命的是,這些技術統統開源,人人可用。
如此一來,大模型企業不需要這麼多卡了。
英偉達的高估邏輯發生了變化。
DeepSeek的母公司是幻方量化,作爲一家量化公司,你猜會不會提前做了操作?
原文標題 : 英偉達跌到,DeepSeek喫飽