在最新一期泰客Talk《Deepseek的真相和谎言》中,基金经理于腾达和券商分析师童飞分享了关于Deepseek对二级市场投资的影响的观点。干货满满,整理如下——
精选内容——
在科技行业里面永远是只要你有断崖的领先优势,你就会收割这个行业里面绝大部分的利润。
我觉得开源和闭源是路线之争,但是也在动态的变化。
我们不得不承认就是DC它目前为止还不是世界上性能最好的模型。
蒸汽机发现之后,大家对煤炭的使用量是上升的,就是大家会为了抢占模型的最高点,依然会保持算力的输出。
我们训练需求减少,但是推理需求其实是一直是存在的,今年2025年是推理大时代。
推理需求的上涨是否一定意味着英伟达的推理需求的上涨?
我们人脑的功率是10~30瓦,但是一块a系列的芯片都要700瓦的一个功率了,那么人脑用这么低的功率就完成了我们这么多丰富的研究成果,所以很多时候可能算法上的巧思也很重要。
Deepseek做的是一件科学的工作,但是投资不只是一件科学的数据性的工作。
问:达哥春节期间发了个朋友圈“如果说AI之前,底层科技万古长夜,那这次,Deepseek让科技树点在了东方”,请达哥展开聊聊
于腾达:我从业以来大部分的时间的全球科技发展,都是应用科学,很少有底层科学的进步,像苹果iPhone产业链它其实只是制造工艺的提升,包括光伏新能源车,也是制造工艺应用科学。大模型的出现,让我们感觉到了底层科技发生了变化。
推动产业进步的或推动经济社会进步的两个重要元素,一个是生产要素,一个是生产效率。生产要素的变化大家是很容易捕捉到的,但是生产效率的提升,我认为在过去这么多年,大模型是第一次把底层的效率提升了一个非常大的台阶。
为什么说Deepseek让科技树点在了东方?我们之前做AI产业的投资,尤其是北美科技巨头。在这个过程中我们会深刻地感受到整个产业链主要的环节是在海外。但这一次模型让我们很惊喜。它快速的拉平了我们跟北美大模型的差距,用这么低的算力水平达到了这样好的效果。这个事件让我想到去年9月份的时候,我们发射东风导弹,这两个事件是同样重要的。
问:听说最近关于deepseek路演非常火爆,能否分享一下,基金经理最关注哪几个问题?
童飞:基金经理主要从应用和算力两方面关注DeepSeek。
首先,DeepSeek的R1和V1模型参数量虽小但是性能卓越,前一段时间英伟达股价下跌也与市场担心算力需求减少有关。但另一方面,单个模型所需算力的减少导致模型的成本下降,反过来有机会推动AI应用的普及。
因此,一方面基金经理关注推理算力的需求量如何增长,另一方面关注DeepSeek是否能够带动大模型应用的大范围落地,以及能否改变中国软件企业商业模式。中国的许多软件企业以项目制为主,很多信息化项目主要是基于客户的业务流程进行建设,而AI应用如果真的能够落地,那么中国的软件企业将能够为行业客户带来增量价值,模型参数量减小也给了中小企业自行开发模型的机会。
此外,基金经理还关注DeepSeek现在最需要什么,产业上有哪些上市公司能够为DeepSeek提供,这其中可能有一定的投资机会。
问:首先,科普一些关于deepseek的名词解释,什么是强化学习(RL)?什么是推理?可否简单举例说明deepseek的推理原理?什么是蒸馏?可否简单举例说明?
童飞:先解释下强化学习:传统的机器学习都是根据历史数据训练,强化学习则是“干中学”,典型的强化学习就是围棋,使用强化学习,AlphaGo Zero能够从头开始学习围棋游戏。通过与自己对战来学习。经过 40 天的自我训练,Alpha Go Zero就能够打败Alpha Go。
推理在AI大模型中有两种语境。一种是算力语境下的推理,就是大模型训练之后进行应用。而在讲大模型的推理能力时,其实就是人们一般语境下的推理,也就是DeepSeek有了似人的思考能力。DeepSeek能够实现推理能力,主要依靠思维链(COT)。思维链简言之就是让大模型不直接输出答案,而是输出思考过程,通过一步一步的思考,最终得到答案。
蒸馏是一种AI模型压缩技术,蒸馏简单来讲就是用小模型(学生模型)学习模仿大模型(教师模型)。小模型的性能可能会下降,但胜在运行成本低、反应快,这样就能部署在边缘端,比如汽车、手机、电脑等设备上。一般在蒸馏时,学生模型是由正常训练得来的,只是使用的是教师模型的知识。最简单直接的方法是给一个问题,教师模型会给出输出,那么这对输入输出就作为学生模型的训练样本。除了这种方法,学生模型在训练时还可以引入教师模型在面对输入问题时的中间层信息,以更好地学习教师模型。
问:在名词解释的基础上,请为我们简单科普一下deepseek发布的两款大模型R1-Zero和DeepSeek-R1,分别取得了怎样的突破和创新?
童飞:R1-Zero这个模型有几个非常显著的特点:
首先,它是纯强化学习路径训练的大模型, 证明纯RL(强化学习)路径可赋予大模型强大的逻辑推理能力。这个模型没有经过传统的监督微调(SFT)步骤,而是直接在V3基座模型上,利用GRPO(Group Relative Policy Optimization)算法进行了训练。这一点在学术界和工业界都是非常创新的。
其次,R1-Zero引入了一种“组内竞争”的机制。举个例子,它会生成多种解法,比如5种,然后从中筛选出最优的解法。这样的做法不仅提高了推理的效率,还大大减少了对标注数据的依赖性。这一点对于提升模型的性能和降低成本都是非常有帮助的。
R1模型有几个关键的技术进步:
首先,它也利用强化学习显著增强了模型的推理能力。在这个过程中,我们看到了对监督微调(SFT)数据的依赖有所减少。
其次,该模型还推广了模型蒸馏的方法。这意味着开发者可以将R1模型的推理能力转移到更小型的模型上,这样就能更好地适应特定应用场景的需求。
此外,R1模型还引入了冷启动微调的概念,这涉及到使用少量的人工引导数据来初始化模型。
问:客观评述,Deepseek的能力到底如何?有研报认为,DeepSeek-R1在推理任务上基本实现与OpenAI-o1相当的性能,较o3模型仍有差距,是这样吗?为什么大模型都数不清strawberry里有几个r?
童飞:在AIME 2024、Codeforce、GPQA Diamond等多项国际标准测试中,R1分数与o1相近,基本上略好于o1,但和o3还有差距。
为什么大型模型难以准确计数单词中的特定字母“r”,以下是可能的几个原因:
首先,是分词(Tokenization)相关的问题。一些大模型在处理文本时,会将单词分解成多个token。比如说,“strawberry”这个单词被分解成“Str-aw-berry”三个token,每个部分被模型视为独立的单元。这种分词方法可能导致模型难以把握整个单词的结构,因此无法准确识别出单词中间的“r”。
其次,模型缺乏自我知识。如果告诉大模型将“Strawberry”这个单词的每个字母列出来,删除除了“r”之外的所有字母,模型就能正确计数。对此,AI+教育领域的专家Karpathy表示,这是因为没有人教模型如何去执行这样的任务。
第三个原因是模型设计的局限性。如果在提示(Prompt)中加入“think step by step”或者其他与思维链相关的提示,大型模型就能够给出正确的答案。有观点猜测,大模型的设计可能就是为了让它在解决问题时尽可能少地花费时间,除非我们有明确的指示,否则它不会主动进行深入的思考。
最后,Karpathy还提到了“Jagged Intelligence”现象,也就是说大型模型在不同的领域表现出不同的智能水平。这意味着模型在某些领域可能表现得非常出色,但在其他领域则可能表现不佳。
问:为什么openAI不开源?
童飞:这个里面肯定是有一段故事的,最早它的名字叫openAI,是有开源特性的。但之后为什么没有开源?openAI的chatGPT研发过程当中,也一度经历过资金的短缺,投资方为了未来的商业化,可能公司在开源和闭源上做了一些质的转变。所以它就是一个闭源的模型。但是我们也看到Deepseek出来之后,openAI迅速开源了它的一些先进的模型。开源和闭源是路线之争,但是也在动态的变化。
问:Deepseek为什么在中文互联网如此出圈?有没有哪些新闻传播点其实是误解?
于腾达:我觉得更重要的原因是它“飞入寻常百姓家”,触达了最广大的消费者。一个产品它如果要实现真正的经济效应的话,它最广大的技术是 ToC的。一旦ToC的,中文环境的人口是全球几乎是最大的,它最大的价值就是在于让AI的使用变得普惠了起来。
童飞:Deepseek登上了全球160多个国家的下载榜的榜首,它不光是在中国爆火,它在全球爆火,特别是我们春节期间,海外各种社交媒体上,对于Deepseek的讨论非常多,甚至新任的美国总统川普都对Deepseek做了点评,这些推动了Deepseek的关注迅速升温。
问:有没有哪些新闻传播点其实是误解?
于腾达:有一些新闻说幻方是一家小公司。不能说幻方是一个小的创业公司,幻方是国内最早的一批而且是很强的量化金融公司。它在不管是之前做量化还是其他技术,他的目标是很清晰的,务实性也很强。
可能最近大家关注度上来之后,大家会去看他团队,其实幻方不管是他的核心团队成员,还是他的一些招的员工,有一个很高的要求,必须是当年的高中奥赛的选手,比如说你高考的时候数学或物理考了满分,可能是因为这份试卷它只有这么多分,但是奥赛是能够清晰的衡量一个人在那个年龄真正的聪明程度或智商水平的。
所以说我觉得幻方他虽然团队的人数可能不是很大,但他招的是在单科单项上都是非常强的人才。但是再看海外这些大厂,招的即便是顶尖名校的,其实更偏我们这些年比较流行的素质精英教育。如果从团队的纯度来讲的话,幻方的团队的纯度的会更高一些,它是一个很强的公司。
而且当一个科技创新出现的时候,大公司它往往会有团队合作的问题,资源分配的问题,包括对自我颠覆的问题,效率有时候也会有一些问题。所以从这一点上讲,Deepseek的出现让我们很惊喜也很惊讶,但是如果再去看它出现的成因,好像又是可以理解的。
童飞:有一些说法是,Deepseek的性能全面超越了GPT,从性能来讲不一定,但是它确实实现了高性能和低算力,这一点是比较明确的。
问:Deepseek导致美国科技股的下跌,是因为他用了更低的训练成本吗?
于腾达:最开始的时候这个逻辑的演绎是最简单清晰的,它用了更少的成本做到了比较好的一个效果,当然大家再去拆解的时候,去寻找这其中的原因,包括说它可能绕过了CUDA用了更底层的语言去做编译。从第一层大家能够看到的直观逻辑上讲,就是他用了更低的成本实现了比较好的效果,这就是美国芯片龙头下跌的最直接的原因,因为毕竟北美那几家厂商,每一家公司每年的资本开支都是在大几百亿美金水平。
问:相比其他芯片厂商,英伟达的壁垒是什么?
于腾达:英伟达是一个它从最早的显卡时代到挖矿时代,再到现在的AI时代,它公司的底色是并行运算。并行运算在全球范围内它应该是最强的,只是说它因为显卡而起家,后来又遇到了挖矿时代,包括现在AI时代,在这个事情上是先发优势的,它不是一个后发优势的产业,所以说英伟达的优势其实一直在扩大,包括它竞争对手AMD的财报,我们会发现它跟英伟达的出货的差距其实是在拉大的。
这一点上我觉得英伟达就好多人也关心,那天晚上可能很多人问英伟达是不是要做空或者是怎么样。结论是这样的,只能说英伟达从一个比较简单的去做判断的阶段,到了一个相对比较难去做的判断,但是说它的行情结束了,可能还为时尚早。
从最新的北美一些应用公司的电话会议里面,我们会听到一些他们的观点,我记得有一家应用公司的CEO,他会说毫无疑问现在现在在AI最重要的产业上面,中美是军备竞赛的,所以说再怎么投入,包括封锁都是不为过的。
包括其实我们在其他的很多行业里面都会看到,像当年的手机产业链,这还不算是一个高端的科技行业,苹果一家公司就赚了整个行业95以上的利润,所以说在科技行业里面永远是只要你有断崖的领先优势,你就会收割这个行业里面绝大部分的利润。只能说可能出现了一种训练方式,让训练的效率变高了,但是对于算力的需求,还是这些大厂短期不会停下的事情。如果从商业模式上来讲,它是一个相对优势的军备竞赛,比如说如果你考了90分,另一家考了95分,那还是95分的这家公司收割了大部分的超额利润。
所以我觉得在这件事情上,大家在算力上的投入不会停下来,除非大家所有人都摸到了这个行业的瓶颈跟天花板,但现在显然大家还没有。如果到了那个时刻,可能说算力的投资是进入了尾声,或者说已经结束了,在现在这个环境下面,英伟达依然是这里面最好的选择,而且他跟后面的人差距在拉大。
问:在基本面上的影响上,我们怎么去看在R1出来之后,我们对算力的需求的增减?
于腾达:只能说趋势还是向上的,只能说大家会很快地摸到了,从原来70分80分这个水平很快就摸到了90分,但到了90分之后,大家还会想往上走,还是要持续的去做追加算力的投入。跟当年挖比特币很像,只有你的算力比别人强,你才能挖到币。
我的结论是,如果说算力的投资在过去两年是一个从难易角度上讲,是一个比较容易下结论的事情,到现在变成了一个相对复杂相对困难的事情。但是如果你站在它的反面说要做空,也是一件比较危险的事情。
童飞:如何看待推理需求的增长,我觉得是我们训练需求减少,但是推理需求其实是一直是存在的,而且其实我们今年是推理大时代,核心是AI应用有望爆发。
在19世纪杰文斯研究蒸汽机的时候,他发现效率提高,成本下降,但是我们反而大家更多的去使用了煤炭,因为煤蒸汽机提高了我们的效率,但它煤炭量使用量还增加了。这是因为我们通过低成本的AI大模型,我们拓展了AI应用的场景,使得各行各业都快速落地,从而迅速去推高了推理的需求。
这一点就是说如果AI应用,能有一个很低的成本来实现商业化,并且我们有良好的大模型的性能,这种性能其实可以很快的去丰富我们的应用,从而反哺我们的推理需求,来进一步的来推高我们的算力需求。
问:对于英伟达来说,推理需求的上涨是否一定意味着英伟达的推理需求的上涨?
于腾达:在推理这个环节,他可能给了其他的芯片公司一些机会。因为训练这个环节可能对于英伟达的需求要求可能是比较高的,但是Deepseek的出现,我的感觉是给了国产的芯片,包括一些第二梯队的芯片机会。
如果到推理这个环节,可能到最后落地到应用的时候,是针对特定行业特定场景特定需求,到时候的芯片完全是可以定制化的。但是训练端可能还是英伟达的优势会比较大。
童飞:我补充一下,其实推理跟训练对于芯片需求有一个很大的不同在于计算精度。我们训练当中,要用至少FP16以上了,但是我们在推理的过程当中,可能INT8或者FP16、FP18,都有可能,它的计算精度是下降的。并且它对内存的需求可能更高。但国产卡可能计算的性能差一点,但显存配备可能都是高配,反而更加的合适。
另一点要提示一下,推理其实要考虑性价比,性价比是一个非常重要的点,英伟达的卡因为禁运也好,因为各种因素也好,大家在囤卡也好,它的价格是比较高的,但国产卡价格没有那么高,更具性价比。
我再补充一点,训练是需要非常多算子的,推理就不需要那么多算子。这个过程当中,一个大模型训练,每天都有不断的新的论文出来,都要有新的训练技术,这个时候你就要不断写新的算子,CUDA生态有这么多开发者,400万开发者,算子库不断完善,做训练就非常好。但是做推理我们可能用到训练的算子是非常少的,这一点其实给国产卡利用的机会是非常多的。
问:客观评价一下,国产芯片距离能够支持世界级AI创新还有多远?
童飞:还有比较长的路要走,即使是在推理层面。在算力、能效和兼容性等方面仍有不足。主要的原因还是产品不成熟,需要在应用中不断打磨。但也就像Deepseek追上了海外一样,我们对芯片我们也可以多一份信心。
问:上次录播客的时候,达哥提到,AI投资正在由算力买铲子阶段走向下游应用搭房子阶段。几个月过去了,你觉得拐点来了吗?
于腾达:拐点已经来了。我们国家这边很多的计算机或者应用公司,其实都是中小公司,它在很长时间内可能没有能力自己去做一个大模型,但Deepseek出来之后,它是开源模型,能够让任何公司去做一个本地化的部署。这就像半导体行业里面,并不是每一家芯片设计公司都需要自己去制造自己的芯片,它去找台积电流片就可以了,它依然能成为非常优秀的芯片设计公司,这一点在应用这个行业里面,我感觉是正在发生。从春节后的股票市场来看,大家也是在演绎这个逻辑,而且是非常强烈的。
童飞:我觉得要关注几点,首先商业化的实际部署,拐点有可能真的快要到来,我们最近几天我们看到了非常多,真的是千行百业的公司都在进入Deepseek,我们看到最近很多医药公司都宣布自己接入Deepseek,甚至我们很多基金公司都宣布了。
第二点是创新带来的机遇,我相信Deepseek它只是一个开局,他们现在一定还在做模型的迭代,后面可能会有更惊艳的模型出来,包括我和字节的沟通,他们也在做内部很多的大模型的研发。所以我觉得 Deepseek只是技术创新的开局。
问:您之前提到关注科技巨头财报数据,科技巨头有什么新故事?接下来要重点关注什么?
于腾达:我现在比较开心的是,科技巨头财报变得没有那么重要了,此前最重要的数据是他们的资本开支以及他们商业化的表述,但是这两个事件现在都在其他更多的环节更高频的行业的变化可以得到体现,Deepseek就是一个很好的例子。
我们也可以看到在Deepseek出现之后,这几个大厂最近刚出了最新的财报,他们的资本开支对2025年的展望依然是向上的,大家并没有在算力这件事情的投资上慢下来,大家一定都想去抢占制高点。
那么从商业化表述上来讲,更多的AI赋能到了更多的应用公司软件公司,美股也有软件公司,我们这边也有一些软件和应用的公司,在自己的收入上慢慢的已经有了一些体现,比较高兴的是有越来越多的信息可以辅助我们去观察这个行业了。科技巨头财报也是依然很重要,但变得没有那么重要了。
问:AI下游应用的新故事可能在哪里?
于腾达:Deepseek它本身就是一个应用,它作为一个APP的形式呈现在了我们的手机上,所以后面在一些搜索推荐、图文展示、视频剪辑优化,语音交互上应该都会很快看到一些落地,这方面有大量的训练的语料,同时它有比较强劲的一个应用场景和需求。
童飞:我觉得有几点,首先是效率革命与成本降低。DeepSeek的高性价比模型证明了,只要算法先进,训练成本跟推理成本都可以大幅度下降。这将会刺激整个大模型行业快速落地,对于整个行业非常有益。从行业长期发展来看,DeepSeek对下游应用落地起到很好的促进作用,所有和编程、数理推断相关的行业,如金融、互联网、法律等领域,都会得到极大发展。
此前我们对国内AI可能没有那么强的信心,但DeepSeek出来之后,我觉得巧思很重要。我们人脑的功率是10~30瓦,但是一块A系列的芯片都要700瓦的功率了,人脑用这么低的功率就完成了我们这么多丰富的研究成果,所以很多时候可能算法上的巧思也很重要。
其次是场景化应用的深化。DeepSeek的模型在特定场景中表现出色,例如编程、数学推理和长文本处理时。其在垂直领域(如医疗、法律、客服)中更具竞争力。
最后是Agent(智能体)的崛起。DeepSeek模型在反思和学习方面的能力,使其在代理(Agent)领域展现出了显著的潜力。展望未来,那些具备自主决策能力的代理有可能在客服、研发、运营等多个场景中引发变革,从而成为人工智能应用的一个崭新方向。
问:Deepseek能否改变中国软件企业商业模式?
于腾达:DeepSeek的出现可能会省去大量的重复性的工作,包括在我们自己的投研领域,很多投研的纪要交流路演,其实都是重复化的。我们投研会用到一些软件,能够压缩了人员的需求,但是又呈现出了更好的产品。未来在AI的浪潮下,他们研发费用的压缩,但是呈现了更好的产品,跟用户达到了共赢的效果,这些公司的利润会呈现比较好的自然而然的上升。
问:会让AI辅助投资决策吗?
于腾达:如果现在 AI时代算智能2.0,他可能会知道我想知道什么,但他其实提供的是中性的回答,不会给到非常鲜明的投资推荐,只能做到更好的信息呈现。投资的模型是一个更复杂的模型。DeepSeek做的是一件科学的工作,但是投资不只是一件科学的数据性的工作,他没法给出结论性的内容。
问:DeepSeek现在最需要什么,有什么是二级市场的上市公司能够提供的?
童飞:它最需要两点,第一点,人才是他非常渴求的。第二点,合规的算力。我们认为当下节点DeepSeek对于商业化的兴趣不大,他们最需要的是在基础模型领域做出进一步的创新。围绕这一点,他们需要招募更多有创造性的人才。为了给人才提供有竞争力的薪水,还需要提供资金。DeepSeek可能需要更多的训练卡,以满足不断创新迭代大模型的需求。对于推理端,DeepSeek因为人员太少难以支持工程细节落地与优化,产品力、工程力可能难以和大厂媲美。他们主要是基础模型人才,而工程落地、产品优化需要大量的人员。
问:Deepseek会成为中美科技战的一个里程碑吗?怎么看更加宏观的影响?
于腾达:在这之前所有的创新我们都是跟随者,尤其在底层的科技创新上面,我们的优势就在于我们的人口是比较多的,所以一般在产业的中后段的应用环节,我们是后发先至的。但这一次在底层的大模型这件事情,我们已经能够进入到全球第一梯队,不仅是第一梯队,而是全球只有两个国家能够做这件事情,我们是其中的一个。所以我觉得毫无疑问,这是科技领域的里程碑的事件。
童飞:我不太喜欢用中美科技战这个词,我觉得它可能更多是一个博弈的过程。我自己更希望是中美科技公司可以不断去合作,合作能够带来更大的发展。那么如果说就是说从技术的进步上来讲,我们第一次从追赶者变成了一个相对领先者,我们也给整个AI产业做了很大的一个贡献。这一点某种程度上讲可以有一定里程碑意义。过去我们都在模仿,我们第一次有了创新,对这个是最大的变化。
观点仅供参考,不构成投资建议或承诺。个股信息仅供参考列示,不构成投资建议或承诺。市场有风险,投资需谨慎。
责任编辑:王若云
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.