DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

量子位

26 Jan

当初OpenAI抛出Sora大饼，一时间Open Sora项目热火朝天。

现在，这股Open的风也是反向吹起来了，最新目标，正是国产大模型DeepSeek-R1。

Open R1项目由HuggingFace发起，联合创始人兼CEO Clem Delangue是这么说的：

我们的科学团队已经开始致力于完全复制和开源R1，包括训练数据、训练脚本……

我们希望能充分发挥开源AI的力量，让全世界每个人都能受益于AI的进步！我相信这也有助于揭穿一些神话。

HuggingFace振臂一呼，立刻欢呼者众。项目上线仅1天，就在GitHub上刷下1.9k标星。

看来这一波，DeepSeek-R1真是给全球大模型圈带来了不小的震撼，并且影响还在持续。

01 Open R1

不过话说回来，DeepSeek-R1本身就是开源的，HuggingFace搞这么个“Open R1”项目，又是为何？

官方在项目页中做了解释：

这个项目的目的是构建R1 pipeline中缺失的部分，以便所有人都能在此之上复制和构建R1。

HuggingFace表示，将以DeepSeek-R1的技术报告为指导，分3个步骤完成这个项目：

第1步：用DeepSeek-R1蒸馏高质量语料库，来复制R1-Distill模型。

第2步：复制DeepSeek用来构建R1-Zero的纯强化学习（RL）pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。

第3步：通过多阶段训练，从基础模型过渡到RL版本。

结合DeepSeek的官方技术报告来看，也就是说，Open R1项目首先要实现的，是用R1数据蒸馏小模型，看看效果是不是像DeepSeek说的那么好：

DeepSeek开源了6个用R1蒸馏的小模型，其中蒸馏版Qwen-1.5甚至能在部分任务上超过GPT-4o。

接下来，就是按照DeepSeek所说，不用SFT，纯靠RL调教出R1-Zero，再在R1-Zero的基础上复刻出性能逼近o1的R1模型。

其中多阶段训练是指，R1技术报告提到，DeepSeek-R1训练过程中引入了一个多阶段训练流程，具体包括以下4个阶段：

冷启动

用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始的推理能力

面向推理的强化学习

在第一个SFT阶段的基础之上，用和训练R1-Zero相同的大规模强化学习方法，进一步提升模型的推理能力，特别是应对编程、数学、科学和逻辑推理任务的能力。

拒绝采样和监督微调

再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。

针对所有场景的强化学习

这次强化学习的重点是让模型行为与人类偏好保持一致，提升模型的可用性和安全性。

目前，在GitHub仓库中，已经可以看到这几个文件：

GRPO实现

训练和评估代码

合成数据生成器

02 奥特曼坐不住了

有意思的是，R1刷屏之中，奥特曼也坐不住了。

这不，他又带来了o3-mini的最新剧透：

ChatGPT Plus会员可以每天获得100条o3-mini查询。

Plus会员马上就能用上operator了，我们正在尽力！

下一个智能体Plus会员首发就能用。

这话一出，𝕏的空气中充满了快乐的气息（doge）：

哇！DeepSeek正在让OpenAI主动大甩卖诶！

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

Most Discussed