作者/新摘 豆包
2023年,OpenAI憑藉具有顛覆性的ChatGPT,站在了AI行業的C位上。當時,國內的頭部公司和OpenAI的差距只有2-3個月,也有人說是3-5年,甚至有人認爲是10年。2-3個月也好,10年也罷,中國企業在大模型領域的位置一直都沒變,始終處於追趕狀態。
2025年,情況出現了變化,DeepSeek憑藉質價比模式,站在了AI行業的C位上。1月11日前後,DeepSeek在全球範圍內上線了App,據Sensor Tower數據顯示,DeepSeek在發佈的18天內累計下載量高達1600萬次,而在同一時間段,ChatGPT的下載量爲900萬次。截至2月5日,DeepSeek 的全球下載量接近4000萬,ChatGPT則爲4100萬。日活方面,DeepSeek在1月31日取得了2215萬的成績,相當於ChatGPT的41.6%。
DeepSeek雖然在總用戶量和日活上和ChatGPT有差距,但他的增速已經足以刺激到包括後者在內的所有大模型廠商。與此同時,所有人都在問,DeepSeek是怎麼做到的?
另外在今日,百度集團執行副總裁、百度智能雲事業羣總裁沈抖在全員會上提到,DeepSeek在短期內會對百度產生影響,但長期來看是利大於弊的。他表示,面對DeepSeek的來勢洶洶,首當其衝的AI產品,沈抖認爲,是字節跳動的豆包,理由是其訓練成本和投流成本都很高 ,那麼DeepSeek崛起,到底誰將受益?誰又受傷害最大?
一、關於DeepSeek的真相與謠言
不同於OpenAI,DeepSeek的成立時間很短,其背後的運營主體是杭州深度求索人工智能基礎技術研究有限公司,該公司成立於2023年7月17日。如果算上和深度求索關係密切的幻方量化,他的歷史比OpenAI久一些。
不過,在科技行業,歷史長短並不是一家企業技術能力高低的決定性因素,深度求索用兩個模型證明了這一點。
2024年底,深度求索發佈了新一代大語言模型V3。當時的測試結果顯示,V3的多項評測成績超越了一些主流開源模型,而且還具有成本優勢。今年1月24日,深度求索又發佈了R1,R1是深度求索引發全球關注的主要原因。據深度求索介紹,R1模型在技術上實現了重要突破—用純深度學習的方法讓AI自發湧現出推理能力,在數學、代碼、自然語言推理等任務上,性能比肩OpenAI的o1模型正式版。
更重要的是,R1延續了V3的高性價比特點,其模型訓練成本只有600萬美元,而OpenAI、谷歌等公司的投入規模爲數億美元乃至數十億美元。
性能不弱+成本更低,這兩個buff讓DeepSeek吸引了全球的關注,同時也引來了爭議,第一個爭議,也是最主要的爭議就是—成本真的有這麼低嗎?
在DeepSeek之前,行業的模式是通過大規模堆料,也就是算力、數據,獲得性能更強的大模型。在這種邏輯的指導下,大模型一直被認爲是巨頭的遊戲,隨着各巨頭豪擲千金,邏輯被進一步強化,而DeepSeek打破了這個邏輯。
目前廣爲流傳的成本數據是600萬美元,嚴格來說,這600萬美元指的只是預訓練過程中 GPU的花費,這只是總成本中的一部分。衆所周知,英偉達是訓練大模型GPU的主要提供者,爲了應對法規要求,英偉達推出了不同版本的H100(如H800、H20),目前中國公司只能使用H20,深度求索的主力GPU應是H20,其他還包括H800和H100。
據知名半導體研究機構 Semianalysis推算,深度求索大約擁有大約10000個H800和10000個H100,以及數量更多的H20,其服務器資本支出約爲16億美元,其中與運營這些集羣相關的成本高達9.44億美元。也就是說,深度求索的投入規模也是億級,即便如此,其成本還是大幅低於OpenAI、谷歌等。對於用了多少GPU,深度求索其實也給出了數據—用2048塊GPU即可訓練R1,這個成本也比OpenAI低。
查詢成本的“物美價廉”也說明了DeepSeek具有成本優勢。目前,DeepSeek R1模型的每百萬個token(符元,AI時代最基礎的運算單位)的查詢成本爲0.14美元,OpenAI的成本爲7.50美元。
關於DeepSeek的第二個爭議是,是否使用了OpenAI的數據,提出質疑的是OpenAI和微軟。
1月31日, OpenAI表示已經發現證據,證明DeepSeek利用他們的模型進行訓練,這涉嫌侵犯知識產權。具體來說,他們發現了DeepSeek“蒸餾”OpenAI模型的跡象,即使用更大模型的輸出來提高較小模型的性能,從而以較低成本在特定任務上取得類似結果。微軟則表示正在調查DeepSeek是否使用了OpenAI的API。
對於這一點,兩者的做法雖然有依據,但並不符合行業主流趨勢。
OpenAI的服務條款有規定,任何人都可以註冊使用OpenAI的API,但是不能使用輸出數據訓練對OpenAI造成競爭威脅的模型,也就是說DeepSeek可以調用OpenAI的數據,但不可以用來訓練大模型。不過,這個規定被很多人認爲是“雙標”,因爲OpenAI在訓練大模型使用了大量數據,其中的一部分就沒有得到數據所有者的授權,而且使用蒸餾數據是行業內的普遍做法。
相比之下,微軟的做法更能說明這一質疑是否站得住腳,他在指控DeepSeek涉嫌侵權的幾個小時後,就在自家的AI平臺上就接入了DeepSeek。
二、DeepSeepk有什麼過人之處?
超低的成本帶來超高的性能,是DeepSeek帶給AI行業最大的震撼。回顧中國企業在其他行業的發展軌跡,他們一直善於做質價比,因此DeepSeek能脫穎而出其實是必然的。
前面提到,大模型行業此前存在算力信仰,無論是誰,如果想開發出性能更強的產品,都只能選擇堆算力和數據這一條路。誠然,這個策略開啓了大模型時代,海外的OpenAI和國內的百度、字節等都受益於此。這種策略雖然仍在發揮作用,但邊際效應可能正在遞減。
以OpenAI爲例,從2012年到2020年,其算力消耗平均每3.4個月就翻倍一次,8年間算力增長了30萬倍。OpenAI首席執行官Sam Altman接受公開採訪表示,GTP-4參數量爲GTP-3的20倍,需要的計算量爲GTP-3的10倍;GTP-5在2024年底至2025年發佈,它的參數量爲GTP-3的100倍,需要的計算量爲GTP-3的200-400倍。
如果每一代的性能都能有巨大的提升,那高昂的成本是可以接受的,問題在於,如果GPT-5今年還做不出來,或者性能成本提高10倍性能只提升10%、20%,那這種模式的追隨者就會大大減少。
導致這種情況出現的原因在於,OpenAI陷入了創新者窘境,他是行業開創者,揹負了巨大的成本包袱,此時選擇閉源策略是合理的。如果GPT能持續大幅提高性能,市場就會持續買單。
而DeepSeek在技術上採取了開源的策略,所謂開源指的是軟件的源代碼可以在網絡上免費提供,以便進行修改和再分發。如果GPT-5的性能真的只提升了10%,那就會有很多人選擇開源,進而幫助DeepSeek成爲AI時代的安卓。因此,在性能接近的前提下,DeepSeek的策略更具有普適性。
簡單來說,DeepSeek並沒有帶來顛覆性創新,但他的策略給行業提供了一個更有普適性的方向,讓大家不必再去堆算力也能做出高性能的大模型。
Stability AI前研究主管Tanishq Mathew Abraham,在近期的博文中強調了DeepSeek的三個創新點。
首先是多頭注意力機制,大語言模型通常是基於Transformer架構,使用所謂的多頭注意力(MHA)機制。DeepSeek團隊開發了一種MHA機制的變體,這種機制既能更高效地利用內存,又能獲得更好的性能表現。其次是可驗證獎勵的GRPO,DeepSeek證明了一個非常簡單的強化學習(RL)流程實際上可以達到類似GPT-4的效果。更重要的是,他們開發了一種稱爲GRPO的PPO強化學習算法變體,這種算法更加高效且性能更好。最後是DualPipe,在多GPU環境下訓練AI模型時,需要考慮很多效率相關的因素。DeepSeek團隊設計了一種稱爲DualPipe的新方法,這種方法的效率和速度都顯著提高。
金沙江創投董事總經理朱嘯虎則表示,DeepSeek的核心是不再需要人類干預,本來是RLHF(人類反饋強化學習),現在直接做RL(強化學習)了,所以成本可以做得很低。
綜合來看,DeepSeek的創新在於推理環節,通過工程創新,優化了大模型在推理環節上存在的痛點,讓產品性能實現了大幅提升。而這其實是早已經註定的結果,從日用百貨到手機、汽車,中國企業一直都擅長做質價比,DeepSeek在大模型領域延續了這一傳統。
三、到底誰將受益?誰會受衝擊?
毫無疑問,DeepSeek作爲繼OpenAI之後第二個對行業產生重大影響的大模型,必將會讓一部分人受益,也會衝擊一部分人的利益。
目前來看,受衝擊較大的是提供GPU的英偉達,其市值因爲DeepSeek一度下跌超過6000億美元。不過,這只是表面現象,受DeepSeek衝擊最大的其實是以OpenAI爲首的閉源大模型廠商。
對英偉達來說,DeepSeek的另闢蹊徑在一定程度上打破了大模型的唯算力論。但是,不管是DeepSeek還是OpenAI,在做訓練時依然需要他的GPU,即便是其他大模型廠商轉向DeepSeek的策略,也要依靠英偉達。瓦特在1759年改良蒸汽機後,更高效的蒸汽機開始廣泛應用,這沒有降低對煤炭的需求,英國的煤炭總消耗指數反而出現了上升,這種現象也適用於算力市場。
相比之下,DeepSeek對OpenAI爲首的閉源大模型廠商的衝擊更大。前面提到,如果OpenAI不能證明這種萬卡集羣模式能持續地幫助大模型大幅提升性能,那他不僅要被投資人質疑,還會被用戶拋棄,如此一來,其商業模式就很難走通。
DeepSeek也將對傳統搜索廠商產生衝擊,這其實在OpenAI爆火後就出現過一次,當時的邏輯是大模型的高效和低成本將侵蝕谷歌的搜索市場的份額。在PC互聯網時代,搜索是第一個殺手級應用,業內普遍認爲,AI時代的第一個殺手級應用也是搜索。
與此同時,隨着DeepSeek加快了人工智能從“訓練階段”到“推理階段”的週期,這會增加對推理芯片的需求。
具體來說,推理指的是使用人工智能根據新的信息作出預測或決策的行爲,這是DeepSeek的優勢和創新點。不少行業人士認爲,隨着客戶採用和構建DeepSeek的開源模型,對推理芯片和計算的需求會越來越大。
人工智能芯片初創公司d-Matrix的首席執行官Sid Sheth表示,DeepSeek已經證明,較小的開源模型可以訓練得與大型專有模型一樣強大,甚至更強大,而且成本很低。隨着小型功能模型的廣泛使用,他們催化了推理的時代。因此,隨着成本的降低,AI應用的採用可能會呈指數級增長,推理環節的算力需求或將爆發。
值得注意的是,儘管DeepSeek的模式有獨到之處,由於採取了開源的策略,對手也可以用他的技術開發出相似的產品,這對他的商業化提出了挑戰。目前,李飛飛和斯坦福大學、華盛頓大學的研究人員已經以不到50美元(只是雲計算服務費)的成本,成功訓練出了類似R1的s1,s1在數學和編碼能力測試中的表現,與OpenAI的O1和R1不相上下。
DeepSeek的成績是值得關注的,但長期來看,他還需要找到一個合適的商業化模式,才能走得更遠。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。