DeepSeek在春节期间刷屏朋友圈,引发了AI产业关于低训练成本、开源与闭源模型选择、模型蒸馏及知识产权等话题的热烈讨论。其高效的训练机制不仅降低了研发门槛,也引发了对于技术共享与商业化路径的广泛思考。同时,如何在创新与保护知识产权之间找到平衡,成为行业未来发展的关键议题。
01 DeepSeek模型低训练成本引发的争议
根据DeepSeek官方发布的数据显示,V3模型的训练成本仅为557.6万美元。这一费用是通过租赁278.8万个H800 GPU小时计算得出的,平均每小时租金为2美元折算。而与GPT-4的训练成本相比,DeepSeek的这一数字几乎是其1/20,引发了行业内外的高度关注。许多人对DeepSeek如何在如此低的成本下完成如此复杂的训练任务充满好奇,也在此过程中产生了一次性训练成本”VS“全周期开发成本”两种看法。
一次性训练成本统计口径支持方:灵活的云计算租赁助力精益创新
支持“一次性训练成本”统计口径的声音认为,DeepSeek之所以能实现低训练成本,得益于其采用了云计算资源的灵活租赁。与传统的自建集群模式相比,DeepSeek通过租赁公有云中的GPU,减少了对固定硬件的依赖,降低了初期硬件投资的压力。这种方式,更符合精益创业的思维——以较低的成本进行快速实验和叠代,从而最大程度地降低风险。
精益创业思维提倡,在资源有限的情况下,以最小的投入进行快速创新,快速试错,利用弹性计算资源优化硬件使用效率,而非一开始就进行大规模的资本投入。支持者认为,这种模式不仅能在短期内实现技术突破,还能在全球AI竞争中获得领先优势。因此,DeepSeek所宣称的557.6万美元训练成本,实则代表了其通过灵活使用云计算资源而进行的精益开发。
全周期开发成本支持方:忽视硬件采购与试错成本,估算过于乐观
然而,反对者则指出,单纯关注“一次性训练成本”忽视了AI模型开发的复杂性和长周期性。在传统的AI大模型开发过程中,必须将整个生命周期中的成本纳入考量。全周期开发成本的支持者认为,硬件采购、研发人员薪酬、试错成本以及架构调整等投资,均应视为不可忽视的沉没成本。
例如,DeepSeek仅在硬件采购上就可能花费超过5亿美元,而开发新的架构(如MLA架构和稀疏模型)通常需要数月时间进行实验、调优和验证,这期间的失败尝试也会带来高昂的成本。因此,DeepSeek所公布的557.6万美元训练成本,实际上严重低估了整个研发过程的总投入。支持者认为,DeepSeek这一低成本数据缺乏对全生命周期投资的全面统计,可能会误导行业对AI研发成本的真实认知。
成本统计口径“罗生门”现象背后的深层次问题
DeepSeek所引发的成本统计口径争议,实际上暴露了AI研发过程中的一项重要问题:成本的定义和统计标准尚未统一。在AI行业,尤其是大模型开发领域,不同公司和团队的成本统计口径、开发周期以及技术路径差异,导致了不同公司对成本的计算方式迥异。而这一点,也正是深度学习模型训练与硬件采购模式的巨大差异所带来的挑战。
与此同时,随着云计算资源的不断发展与创新,云租赁与自建集群模式之间的争议也在进一步加剧。是否完全依赖云计算租赁来降低初期硬件投资,还是通过长期投入在自建集群中实现稳定性和可控性?这一问题依然没有明确的答案,且每种选择都伴随着不小的风险与不确定性。
02 DeepSeek引领AI行业新趋势,从“训练军备竞赛”到“推理效率革命”
推理效率“降维打击”
传统的大型AI模型如GPT-4,在推理过程中需要激活所有参数,导致计算资源和算力需求呈线性增长,推理成本不断上升。与此不同,DeepSeek采用稀疏架构,仅激活35%-37%的参数,大幅提高了推理效率,缩短了推理时间,同时降低了长期的推理成本。
技术外溢:推进行业标准变革
如果稀疏架构成为行业标准,未来AI优化的关键指标将不再是“参数量”,而是“激活效率”。这一变化将推动轻量化、场景专用的模型崛起,并在边缘计算等领域发挥重要作用,加速AI技术的普及和应用。
商业模式转型:从“烧钱训练”到“订阅式服务”
DeepSeek的推理效率突破不仅减少了推理成本,也为商业模式带来变革。企业可以通过低成本提供高效服务,降低盈利门槛,尤其是在API收费模式下。此外,推理技术的进步也为AI应用在智能客服、实时推荐等场景的普及创造了新机遇。
行业格局变化:中小厂商迎来逆袭
传统的大型AI企业依赖庞大的硬件资源和数据优势,但稀疏架构的开源和技术创新为中小厂商提供了逆袭的机会。中小厂商可以通过更轻量化的模型架构,利用有限的算力实现技术突破,打破大企业在“数据+算力”上的垄断。
03 DeepSeek是否真的刺穿英伟达算力泡沫
DeepSeek近期的技术突破引发了市场的强烈反应,尤其是在英伟达高端GPU市场的影响上。短期内,英伟达股价的波动可以归因于市场对DeepSeek创新的恐慌反应,但从长期来看,DeepSeek的突破将带来算力成本的降低,将推动AI应用生态爆发,进一步提升对英伟达产品的需求。
短期情绪波动:DeepSeek突破对英伟达的威胁
DeepSeek通过优化PTX层和支持FP8计算,理论上减少了AI模型训练对英伟达高端GPU的依赖。PTX(Parallel Thread Execution)作为NVIDIA CUDA架构的底层指令集,长期以来构成了英伟达技术壁垒的核心部分。DeepSeek的突破主要集中在PTX层的局部优化,提升了计算效率,但其技术的另一个潜在影响是,DeepSeek是否也具备在其他GPU平台(非最精尖)上进行优化的能力,这意味着其他厂商的GPU产品可与英伟达产品正面竞争。然而,这种局部优化并不会摧毁英伟达的技术生态,市场对DeepSeek技术的“破坏性”存在误判。DeepSeek的突破更像是在现有架构上开发更高效的编译器,而非从根本上改变整个操作系统。
长期需求:算力成本下降推动AI应用普及
从长期来看,DeepSeek的推理效率提升将促进AI算力的普及。随着低精度计算(如FP8)的推广,越来越多的AI应用能够在中低端硬件上运行,这意味着,AI研发公司将不再局限于选择英伟达的高端GPU。虽然这一突破为其他厂商提供了替代英伟达的可能性,但更广泛的算力需求将推动整个AI应用生态的爆发,反而为英伟达带来了更多市场机会。
英伟达的护城河:CUDA生态的不可替代性
尽管DeepSeek在局部优化上取得了进展,英伟达的完整硬件和软件生态(包括CUDA编程环境、开发工具及社区支持)仍然是其不可替代的优势。CUDA不仅仅是一个API接口,它为开发者提供了全生命周期的支持,成为AI开发者和企业选择英伟达硬件的核心理由。因此,即使DeepSeek能在其他厂商推出的硬件上优化计算能力,CUDA生态的深度与粘性依然是英伟达的强大护城河。
文章来源:头豹公众号
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。