DeepSeek崛起,到底谁将受益?

蓝鲸财经
17 Feb

作者/新摘 豆包

2023年,OpenAI凭借具有颠覆性的ChatGPT,站在了AI行业的C位上。当时,国内的头部公司和OpenAI的差距只有2-3个月,也有人说是3-5年,甚至有人认为是10年。2-3个月也好,10年也罢,中国企业在大模型领域的位置一直都没变,始终处于追赶状态。

2025年,情况出现了变化,DeepSeek凭借质价比模式,站在了AI行业的C位上。1月11日前后,DeepSeek在全球范围内上线了App,据Sensor Tower数据显示,DeepSeek在发布的18天内累计下载量高达1600万次,而在同一时间段,ChatGPT的下载量为900万次。截至2月5日,DeepSeek 的全球下载量接近4000万,ChatGPT则为4100万。日活方面,DeepSeek在1月31日取得了2215万的成绩,相当于ChatGPT的41.6%。

DeepSeek虽然在总用户量和日活上和ChatGPT有差距,但他的增速已经足以刺激到包括后者在内的所有大模型厂商。与此同时,所有人都在问,DeepSeek是怎么做到的?

另外在今日,百度集团执行副总裁、百度智能云事业群总裁沈抖在全员会上提到,DeepSeek在短期内会对百度产生影响,但长期来看是利大于弊的。他表示,面对DeepSeek的来势汹汹,首当其冲的AI产品,沈抖认为,是字节跳动的豆包,理由是其训练成本和投流成本都很高 ,那么DeepSeek崛起,到底谁将受益?谁又受伤害最大?

一、关于DeepSeek的真相与谣言

不同于OpenAI,DeepSeek的成立时间很短,其背后的运营主体是杭州深度求索人工智能基础技术研究有限公司,该公司成立于2023年7月17日。如果算上和深度求索关系密切的幻方量化,他的历史比OpenAI久一些。

不过,在科技行业,历史长短并不是一家企业技术能力高低的决定性因素,深度求索用两个模型证明了这一点。

2024年底,深度求索发布了新一代大语言模型V3。当时的测试结果显示,V3的多项评测成绩超越了一些主流开源模型,而且还具有成本优势。今年1月24日,深度求索又发布了R1,R1是深度求索引发全球关注的主要原因。据深度求索介绍,R1模型在技术上实现了重要突破—用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩OpenAI的o1模型正式版。

更重要的是,R1延续了V3的高性价比特点,其模型训练成本只有600万美元,而OpenAI、谷歌等公司的投入规模为数亿美元乃至数十亿美元。

性能不弱+成本更低,这两个buff让DeepSeek吸引了全球的关注,同时也引来了争议,第一个争议,也是最主要的争议就是—成本真的有这么低吗?

在DeepSeek之前,行业的模式是通过大规模堆料,也就是算力、数据,获得性能更强的大模型。在这种逻辑的指导下,大模型一直被认为是巨头的游戏,随着各巨头豪掷千金,逻辑被进一步强化,而DeepSeek打破了这个逻辑。

目前广为流传的成本数据是600万美元,严格来说,这600万美元指的只是预训练过程中 GPU的花费,这只是总成本中的一部分。众所周知,英伟达是训练大模型GPU的主要提供者,为了应对法规要求,英伟达推出了不同版本的H100(如H800、H20),目前中国公司只能使用H20,深度求索的主力GPU应是H20,其他还包括H800和H100。

据知名半导体研究机构 Semianalysis推算,深度求索大约拥有大约10000个H800和10000个H100,以及数量更多的H20,其服务器资本支出约为16亿美元,其中与运营这些集群相关的成本高达9.44亿美元。也就是说,深度求索的投入规模也是亿级,即便如此,其成本还是大幅低于OpenAI、谷歌等。对于用了多少GPU,深度求索其实也给出了数据—用2048块GPU即可训练R1,这个成本也比OpenAI低。

查询成本的“物美价廉”也说明了DeepSeek具有成本优势。目前,DeepSeek R1模型的每百万个token(符元,AI时代最基础的运算单位)的查询成本为0.14美元,OpenAI的成本为7.50美元。

关于DeepSeek的第二个争议是,是否使用了OpenAI的数据,提出质疑的是OpenAI和微软

1月31日, OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。具体来说,他们发现了DeepSeek“蒸馏”OpenAI模型的迹象,即使用更大模型的输出来提高较小模型的性能,从而以较低成本在特定任务上取得类似结果。微软则表示正在调查DeepSeek是否使用了OpenAI的API。

对于这一点,两者的做法虽然有依据,但并不符合行业主流趋势。

OpenAI的服务条款有规定,任何人都可以注册使用OpenAI的API,但是不能使用输出数据训练对OpenAI造成竞争威胁的模型,也就是说DeepSeek可以调用OpenAI的数据,但不可以用来训练大模型。不过,这个规定被很多人认为是“双标”,因为OpenAI在训练大模型使用了大量数据,其中的一部分就没有得到数据所有者的授权,而且使用蒸馏数据是行业内的普遍做法。

相比之下,微软的做法更能说明这一质疑是否站得住脚,他在指控DeepSeek涉嫌侵权的几个小时后,就在自家的AI平台上就接入了DeepSeek。

二、DeepSeepk有什么过人之处?

超低的成本带来超高的性能,是DeepSeek带给AI行业最大的震撼。回顾中国企业在其他行业的发展轨迹,他们一直善于做质价比,因此DeepSeek能脱颖而出其实是必然的。

前面提到,大模型行业此前存在算力信仰,无论是谁,如果想开发出性能更强的产品,都只能选择堆算力和数据这一条路。诚然,这个策略开启了大模型时代,海外的OpenAI和国内的百度、字节等都受益于此。这种策略虽然仍在发挥作用,但边际效应可能正在递减。

以OpenAI为例,从2012年到2020年,其算力消耗平均每3.4个月就翻倍一次,8年间算力增长了30万倍。OpenAI首席执行官Sam Altman接受公开采访表示,GTP-4参数量为GTP-3的20倍,需要的计算量为GTP-3的10倍;GTP-5在2024年底至2025年发布,它的参数量为GTP-3的100倍,需要的计算量为GTP-3的200-400倍。

如果每一代的性能都能有巨大的提升,那高昂的成本是可以接受的,问题在于,如果GPT-5今年还做不出来,或者性能成本提高10倍性能只提升10%、20%,那这种模式的追随者就会大大减少。

导致这种情况出现的原因在于,OpenAI陷入了创新者窘境,他是行业开创者,背负了巨大的成本包袱,此时选择闭源策略是合理的。如果GPT能持续大幅提高性能,市场就会持续买单。

而DeepSeek在技术上采取了开源的策略,所谓开源指的是软件的源代码可以在网络上免费提供,以便进行修改和再分发。如果GPT-5的性能真的只提升了10%,那就会有很多人选择开源,进而帮助DeepSeek成为AI时代的安卓。因此,在性能接近的前提下,DeepSeek的策略更具有普适性。

简单来说,DeepSeek并没有带来颠覆性创新,但他的策略给行业提供了一个更有普适性的方向,让大家不必再去堆算力也能做出高性能的大模型。

Stability AI前研究主管Tanishq Mathew Abraham,在近期的博文中强调了DeepSeek的三个创新点。

首先是多头注意力机制,大语言模型通常是基于Transformer架构,使用所谓的多头注意力(MHA)机制。DeepSeek团队开发了一种MHA机制的变体,这种机制既能更高效地利用内存,又能获得更好的性能表现。其次是可验证奖励的GRPO,DeepSeek证明了一个非常简单的强化学习(RL)流程实际上可以达到类似GPT-4的效果。更重要的是,他们开发了一种称为GRPO的PPO强化学习算法变体,这种算法更加高效且性能更好。最后是DualPipe,在多GPU环境下训练AI模型时,需要考虑很多效率相关的因素。DeepSeek团队设计了一种称为DualPipe的新方法,这种方法的效率和速度都显著提高。

金沙江创投董事总经理朱啸虎则表示,DeepSeek的核心是不再需要人类干预,本来是RLHF(人类反馈强化学习),现在直接做RL(强化学习)了,所以成本可以做得很低。

综合来看,DeepSeek的创新在于推理环节,通过工程创新,优化了大模型在推理环节上存在的痛点,让产品性能实现了大幅提升。而这其实是早已经注定的结果,从日用百货到手机、汽车,中国企业一直都擅长做质价比,DeepSeek在大模型领域延续了这一传统。

三、到底谁将受益?谁会受冲击?

毫无疑问,DeepSeek作为继OpenAI之后第二个对行业产生重大影响的大模型,必将会让一部分人受益,也会冲击一部分人的利益。

目前来看,受冲击较大的是提供GPU的英伟达,其市值因为DeepSeek一度下跌超过6000亿美元。不过,这只是表面现象,受DeepSeek冲击最大的其实是以OpenAI为首的闭源大模型厂商。

对英伟达来说,DeepSeek的另辟蹊径在一定程度上打破了大模型的唯算力论。但是,不管是DeepSeek还是OpenAI,在做训练时依然需要他的GPU,即便是其他大模型厂商转向DeepSeek的策略,也要依靠英伟达。瓦特在1759年改良蒸汽机后,更高效的蒸汽机开始广泛应用,这没有降低对煤炭的需求,英国的煤炭总消耗指数反而出现了上升,这种现象也适用于算力市场。

相比之下,DeepSeek对OpenAI为首的闭源大模型厂商的冲击更大。前面提到,如果OpenAI不能证明这种万卡集群模式能持续地帮助大模型大幅提升性能,那他不仅要被投资人质疑,还会被用户抛弃,如此一来,其商业模式就很难走通。

DeepSeek也将对传统搜索厂商产生冲击,这其实在OpenAI爆火后就出现过一次,当时的逻辑是大模型的高效和低成本将侵蚀谷歌的搜索市场的份额。在PC互联网时代,搜索是第一个杀手级应用,业内普遍认为,AI时代的第一个杀手级应用也是搜索。

与此同时,随着DeepSeek加快了人工智能从“训练阶段”到“推理阶段”的周期,这会增加对推理芯片的需求。

具体来说,推理指的是使用人工智能根据新的信息作出预测或决策的行为,这是DeepSeek的优势和创新点。不少行业人士认为,随着客户采用和构建DeepSeek的开源模型,对推理芯片和计算的需求会越来越大。

人工智能芯片初创公司d-Matrix的首席执行官Sid Sheth表示,DeepSeek已经证明,较小的开源模型可以训练得与大型专有模型一样强大,甚至更强大,而且成本很低。随着小型功能模型的广泛使用,他们催化了推理的时代。因此,随着成本的降低,AI应用的采用可能会呈指数级增长,推理环节的算力需求或将爆发。

值得注意的是,尽管DeepSeek的模式有独到之处,由于采取了开源的策略,对手也可以用他的技术开发出相似的产品,这对他的商业化提出了挑战。目前,李飞飞和斯坦福大学、华盛顿大学的研究人员已经以不到50美元(只是云计算服务费)的成本,成功训练出了类似R1的s1,s1在数学和编码能力测试中的表现,与OpenAI的O1和R1不相上下。

DeepSeek的成绩是值得关注的,但长期来看,他还需要找到一个合适的商业化模式,才能走得更远。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10