一觉醒来,AGI就实现了?!中国开源版o1,直接冲爆了整个AI圈。
继DeepSeek V3之后,DeepSeek再次官宣了全新推理模型——DeepSeek-R1。
让所有人为之震惊的是,新模型直接与o1打平手,关键还是开源版的o1。
当人们扒开其22页技术报告后发现,DeepSeek-R1在强化学习阶段之前,没有进行微调SFT,便在性能上刷新SOTA。
也就是说,R1自己就学会了推理,就像战胜人类的AlphaZero/AlphaGo一样。
还有一点,就是连研究人员都没有预料到——R1竟出现了“啊哈”时刻!
研究人员称,这一刻凸显了强化学习的力量和美妙之处。
“我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。”
这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究
此次,R1震惊四座的表现,让强化学习算法再次破局,甚至有网友表示,“2025年或许就是RL之年”。
英伟达高级科学家Jim Fan对此意有所指地幽默表示道:
“影响可以通过‘内部实现的ASI’或像‘草莓计划’这样神乎其神的名称来完成。
影响也可以通过简单地展示原始算法和matplotlib学习曲线来实现。”
毫无疑问,DeepSeek的大方开源,让OpenAI显得更加地相形见绌。
目前,官方研究论文已经发布,以供大家研究。
论文地址:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
推理媲美o1,代码击败人类
DeepSeek-R1在后训练时大量运用强化学习技术,在只有少量标注数据的情况下,就能大幅提升模型的推理能力。
在数学、代码以及自然语言推理等任务中,DeepSeek-R1的性能与OpenAI o1正式版不相上下。
在AIME2024测试中,R1取得了79.8%的成绩,略高于OpenAI-o1-1217。
在MATH-500测试里,它更是获得了97.3%的出色成绩,表现与OpenAI-o1-1217相当,且明显超越其他模型。
在编码类任务方面,R1在代码竞赛中展现出专家级水平,在Codeforces平台上获得了2029的Elo评级,在竞赛里的表现超过了96.3%的人类参赛者。
在工程任务中,DeepSeek-R1的表现也稍胜OpenAI-o1-1217一筹。
DeepSeek-R1的基准测试对比
DeepSeek此次共推出了两款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。
DeepSeek-R1-Zero是通过大规模强化学习(RL)训练而成,没有经过监督微调(SFT)预处理,也展现出出色的推理能力。不过,该模型存在一些问题,比如推理内容可读性欠佳,还会出现语言混杂的情况。
为解决这些问题并进一步提升推理性能,研究团队推出DeepSeek-R1。
DeepSeek-R1在RL前加入多阶段训练,并使用冷启动数据。DeepSeek-R1在推理任务上的表现,与OpenAI-o1-1217相当。
为支持研究社区发展,研究团队开源了DeepSeek-R1-Zero、DeepSeek-R1,以及6个基于Qwen和Llama提炼的DeepSeek-R1模型,参数规模分别为1.5B、7B、8B、14B、32B和70B。
借助DeepSeek-R1的输出,团队提炼出6个小模型并开源。其中,32B和70B参数的模型,在多项能力上达到了与OpenAI o1-mini相当的水平。
从下表中可以看出,DeepSeek-R1-Distill-Qwen-32B在AIME 2024中的得分达到72.6%,在MATH-500中得分为94.3%,在LiveCodeBench中得分为57.2%。这些成绩都远超之前的开源模型,与o1-mini不相上下。
抛弃SFT,全靠强化学习
对于预训练大模型而言,监督微调(SFT)是极为关键甚至必不可少的训练技巧。
SFT就是先用大量人工设定标准的数据进行训练,之后再通过强化学习进一步自我优化。以往在提升模型性能时,依赖于大量的监督数据。
但本项研究证明,即使不借助监督微调(SFT)来启动模型,仅依靠大规模强化学习,同样能显著提升模型的推理能力。不仅如此,若加入少量冷启动数据,模型性能还能进一步提高。
DeepSeek-R1-Zero直接在基础模型上应用RL,无需任何SFT数据。SFT曾是ChatGPT成功的关键,如今R1 Zero却用RL替代了SFT。
图中呈现了DeepSeek-R1-Zero在AIME 2024基准测试里,RL训练期间性能的变化。随着RL训练逐步推进,DeepSeek-R1-Zero的性能稳定且持续提升,证明了RL算法的有效性。
表格对比分析了DeepSeek-R1-Zero和OpenAI的o1-0912模型在多项推理基准测试中的表现。结果显示,通过RL,即便没有监督微调数据,DeepSeek-R1-Zero依然获得了强大的推理能力。这一成果意义非凡,表明模型仅依靠RL就能学习并实现泛化。
DeepSeek-R1
DeepSeek-R1-Zero在从基础模型开启RL训练时,早期的冷启动阶段不太稳定。为避免这种情况,DeepSeek-R1中构建并收集了一小部分长推理链(CoT)数据。
研究者收集了成千上万条冷启动数据,用来微调DeepSeek-V3-Base,这一方法显著提升了可读性,有效处理了多语言混杂的情况。
用冷启动数据对DeepSeek-V3-Base完成微调后,研究者采用与DeepSeek-R1-Zero一样的大规模RL训练流程。
训练时发现,思维链(CoT)经常出现语言混合的情况,特别是当RL提示词涉及多种语言的时候。
为解决这个问题,研究者在RL训练中加入语言一致性奖励,通过计算CoT里目标语言词汇的比例来确定奖励。虽然消融实验显示,这种调整会让模型性能稍有下降,但它符合人类阅读偏好,能让输出内容可读性更强。
当以推理为导向的RL达到收敛后,研究者借助此时得到的检查点,收集用于监督微调(SFT)的数据,用于后续的训练。
与一开始主要聚焦推理的冷启动数据不同,这个阶段会引入其他领域的数据,从而提升模型在写作、角色扮演以及其他通用任务方面的能力。
为了让模型更好地契合人类偏好,研究者运用奖励信号,搭配多样化的提示词来训练模型。通过整合奖励信号和多样化的数据分布,成功训练出一款模型。它不仅推理能力出色,还能将实用性和安全性放在首位。
团队还分享了失败的尝试,包括过程奖励模型和蒙特卡洛搜索。同时他们也强调了,这并不意味着这些方法无法开发出有效的推理模型。
未来,团队打算从这几个方向对DeepSeek-R1展开研究:
- 提升通用能力:目前,DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出这些任务上,能力不如DeepSeek-V3。接下来,团队计划研究如何借助长链推理(CoT),提升在这些领域的任务处理能力。
- 解决语言混合问题:DeepSeek-R1当前主要针对中文和英文做了优化,在处理其他语言的查询时,可能会出现语言混合的情况。比如用户用非中文和英文提问,DeepSeek-R1仍可能用英文推理并作答。计划在后续更新中解决这个问题。
- 优化提示词工程:评估DeepSeek-R1时,发现它对提示词很敏感。少样本提示词常常会降低其性能。所以,建议用户在零样本设置下,直接描述问题并指定输出格式,以获取最佳效果。
- 改进软件工程任务:因为评估过程耗时太长,影响了RL训练的效率,导致DeepSeek-R1在软件工程基准测试上,未取得明显进步。未来会通过对软件工程数据采用拒绝采样,或者在RL中引入异步评估的方式来提高效率。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.