免费用户也可使用o3 mini推理模型了!
作者|甲子光年 赵健
北京时间2月1日凌晨,OpenAI正式发布o3-mini,这是OpenAI推理系列中最新、最具成本效益的模型,已在ChatGPT和API中开放使用。
这可以看作OpenAI对过去一周多风靡美国市场的DeepSeek的回应。
在o3 mini发布的同时,OpenAI高管团队还在Reddit上举办了一场线上的AMA(ask me anything),回答有关o3 mini以及AI发展相关的一切问题。
在被问及是否会考虑发布一些模型权重以及一些研究时,OpenAI首席执行官Sam Altman首次承认:“我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略。OpenAI中并非所有人都认同这一观点,这也不是我们当前的最高优先事项。”
此外,OpenAI高管团队还讨论了o3 mini的功能、价格以及其他产品更新、算力等相关的话题。
可以说,如果没有DeepSeek,OpenAI不会这么快做出回应,无论是模型还是言论。
1.OpenAI首次将推理模型开放给免费用户
本次发布的o3-mini在2024年12月发布了预览版本,是OpenAI首个支持高度请求的开发者功能的小型推理模型,包括函数调用、结构化输出和开发者消息。o3-mini将支持流式传输,开发者还可以在三种推理努力选项——低、中、高——之间进行选择,以优化其特定用例。这种灵活性使得o3-mini在解决复杂挑战时可以“更努力地思考”,或者在延迟是关键问题时优先考虑速度。但是o3-mini不支持视觉能力,因此开发者应继续使用OpenAI o1进行视觉推理任务。
OpenAI表示o3-mini突破了小型模型所能实现的界限,提供了卓越的STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅长科学、数学和编码,同时保持了o1-mini的低成本和低延迟。专家测试人员的评估表明,与OpenAI o1-mini相比,o3-mini的答案更准确、更清晰,推理能力更强。
OpenAI表示,测试人员在56%的时间里更喜欢o3-mini的回答,并观察到在困难的现实问题上重大错误减少了 39%。在中等推理努力下,o3-mini在一些最具挑战性的推理和智力评估(包括 AIME 和 GPQA)上的表现与o1相当。
o3 mini在数学竞赛AIME 2024的成绩表现,图片来自OpenAI
价格层面,OpenAI提供了不同的套餐设置:Pro用户将可以无限制访问o3-mini,而Plus和Team用户将拥有三倍的速率限制(与o1-mini相比);免费用户可以通过选择消息编写器下方的“Reason”按钮在ChatGPT中尝试o3-mini。
这是OpenAI首次将推理模型开放给免费用户,此前发布的o1模型只有ChatGPT plus会员可以使用。而免费开放的原因其实也很显然,那就是被DeepSeek免费且开源的R1给卷到了。
不过,ChatGPT plus会员会享有更高版本的模型“o3-mini-high”,它会思考得更深入,并给出更好的答案。
作为此次升级的一部分,OpenAI将Plus和Team用户的速率限制从每天50条消息(使用o1-mini)提高到每天150条消息(使用o3-mini)。此外,o3-mini现在可以与搜索功能配合使用,以查找最新的答案并链接到相关的网络资源。这是OpenAI将搜索功能整合到推理模型中的早期原型。
在安全层面,OpenAI用来教o3-mini安全响应的关键技术之一是审慎对齐,即在回答用户提示之前,训练模型推理人类编写的安全规范。与OpenAI o1类似,o3-mini在具有挑战性的安全性和越狱评估方面明显超越了GPT-4o。在部署之前,OpenAI表示仔细评估了o3-mini的安全风险,采用了与o1相同的准备、外部红队和安全评估方法。
2.OpenAI团队回答一切
OpenAI高管团队在Reddit上举办了一场线上的AMA(ask me anything),回答有关o3 mini以及AI发展相关的一切问题。
参与本次活动的共6人,包括首席执行官Sam Altman、首席研究官Mark Chen、首席产品官Kevin Weil、工程副总裁Srinivas Narayanan、API 研究主管Michelle Pokrass、研究主管Hongyu Ren。
首先是大家最关心的关于DeepSeek的焦点问题。
有用户表示显然这是一个非常令人印象深刻的模型,这会如何改变OpenAI对未来模型的计划?
Sam Altman此前对于DeepSeek评价很高,这次也给出了类似的评价。他回复称:“这是一个非常好的模型!我们将生产出更好的模型,但领先优势将比前几年有所减弱。”
鉴于DeepSeek在开源领域取得的成功,有人问OpenAI是否考虑发布一些模型权重并发表一些研究?
Sam Altman对此回应称:“是的,我们正在讨论。我个人认为,我们在这里站在了历史的错误一边,需要找出一个不同的开源策略;OpenAI中并非所有人都认同这一观点,这也不是我们当前的最高优先事项。”
这似乎是Sam Altman首次正面承认OpenAI的闭源“是一个错误”。但OpenAI是否会真正开源?这恐怕将是一个艰难的选择。
第二个集中话题是关于o3 mini的产品功能。
首先是价格问题。有人对比发现,o3 mini的价格与Deepseek和Gemini相比仍然没有竞争力。比如,在百万tokens规模下,Deepseek R1的API输入价格(缓存命中)为0.14美元,输出价格为2.19美元,而o3 mini的输入价格为0.55美元,输出价格为4.40美元。
DeepSeek API价格,deepseek-chat指的是DeepSeek-V3.,deepseek-reasoner指的是DeepSeek-R1,图片来自DeepSeek官网
O系列推理模型价格,图片来自OpenAI官网
OpenAI API研究主管Michelle Pokrass对此回应:“我们发现o3-mini与美国托管的Deepseek版本相比具有竞争力。我们认为对于这种级别的智能来说,这是一个真正实惠的选择。”
OpenAI会计划提高plus会员的价格吗?Sam Altman回应称:“实际上我想随着时间的推移减少它。”
大模型推理成本的下降是一个必然趋势。OpenAI在发布o3 mini时表示,该模型延续了其降低智能成本的记录——自推出GPT-4以来,每个token的价格降低了95%——同时保持了顶级的推理能力。
针对o3 mini的价格,OpenAI制定了不同的套餐模式。有人问,为什么当plus用户拥有大量o3-mini-high限额时,订阅PRO版本仍然值得?
Sam Altman回应称,如果你认为o1 pro还算值得,那么你应该认为o3 pro超级值得。
工程副总裁Srinivas Narayanan进一步解释:“我们现在有o1专业模式,还有操作员模式。我们可能会继续有更多方法使用更多计算来解决专业级的难题。是的,专业用户喜欢无速率限制。”
其次是思维链的展示问题。o3 mini并不像DeepSeek R1那样给出非常详细的思维链过程,而是非常简洁。
o3 mini的思维链展示
DeepSeek R1的思维链展示
于是有用户提问,我们能看看所有的思考标记吗?
首席产品官Kevin Weil回复称:“我们正在努力展示比今天更多的内容——很快就会实现。所有内容都有待确定,展示所有CoT会导致竞争性提炼,但我们也知道人们(至少是高级用户)想要它,所以我们会找到正确的方法来平衡它。”
关于o3 mini知识库的时间更新问题,有用户表示不理解。“在我支付了plus费用之前,GPT-4o拥有的知识截止到2024年6月,但是现在我支付了plus费用,知识截止时间又改回了2023年10月。为什么会这样?”
Sam Altman对此回应称:“现在我们已经启用了搜索功能,这一点就不再那么重要了——就我自己的使用而言,我再也没有考虑过知识截止的问题了。”
OpenAI本次发布的是o3 mini,于是有人问完整版本o3何时首次亮相?
Sam Altman一如既往开始画饼:“我猜会是几周以上,几个月以下。”
第三个话题集中在其他产品更新,也就是OpenAI曾经发布的“期货”产品何时兑现。
有用户关心4o图像生成器是否还会发布,这是大约一年前OpenAI发布的功能。GPT-4o是一种多模态人工智能模型,可同时理解和生成文本、图像和音频内容,但目前为止图像生成功能还未更新。
图片来自Reddit
首席产品官Kevin Weil对此回复称:“是的!我们正在努力。我认为等待是值得的。”有人继续追问有没有大概的时间表,Kevin Weil先是开玩笑地说“你想给我找麻烦”,随后又补充说“可能要几个月”。
此外,关于图像生成模型DALL-3的后续版本,Kevin Weil也是一模一样的回复:“是的!我们正在努力。我认为等待是值得的。”
有用户对此“千篇一律”的回复表示不满意,并调侃道“这是GPT-3在回应吗?”
有用户关注长上下文窗口的问题,询问能否很快实现1M上下文。
对此,工程副总裁Srinivas Narayanan回复“正在努力,但没有明确的日期表”。
关于很多人都关心的GPT-5,Sam Altman表示还没有时间表。
首席产品官Kevin Weil则回应称,会在“o-17 micro和 GPT-(π+1) 之后不久”。换句话说,遥遥无期。
不过Sam Altman表示会有一些即将发布的更新,比如高级语音模式。
有人问,有了语音、视频、屏幕共享、任务和操作员,OpenAI现在已经发布了相当多的组件,这些组件共同构成了非常完整的自动化体验。在我们可以说拥有完整的AI体验之前,是否还缺少一些部分?如果是,那么缺少哪些部分?
对此,工程副总裁Srinivas Narayanan回复:“是的,很多部分正在整合在一起。继续提高推理能力仍然是最关键的部分。连续的视频输入和视频输出真的很酷。在任何环境中实现自动化——不仅仅是浏览器,而是整个计算机或其他设备。以及轻松理解和使用不同应用程序(在工作和个人生活中)的能力。”
最后是关于算力以及AGI相关的问题。
有人问,假设现在是2030年,你刚刚创建了一个大多数人称之为AGI的系统。它在你提出的每一个基准测试中都表现出色,并且在速度和性能上都击败了你最好的工程师和研究人员。现在怎么办?除了“在网站上提供”之外,还有其他计划吗?
工程副总裁Srinivas Narayanan回复:“我们与人工智能交互的界面将发生根本性的变化。事情将变得更加代理化。人工智能将在后台为我们持续工作,完成复杂的任务并实现我们的目标。它们会在有需要时向我们汇报。机器人技术也应该足够先进,让它们能够在现实世界中为我们完成有用的任务。”
Sam Altman认为,最重要的影响是加速科学发现的速度,我相信这是对改善生活质量的最大贡献。
有人提到了芯片,问OpenAI如何看待trillium、cerebers等更专用的芯片/TPU?OpenAI正在研究这些芯片吗?
Sam Altman的回应很简洁:GB200现在很难被击败!
不久之前,Sam Altman宣布第一个完整的8机架GB200 NVL72现已在Azure中为OpenAI运行。
有人问,Stargate(星际之门)的成功对 OpenAI 的未来有多重要?
首席产品官Kevin Weil回应称:“非常重要。我们看到的一切都表明,我们拥有的计算能力越多,我们构建的模型就越好,我们制造的产品就越有价值。我们现在同时在两个维度上扩展模型——更大的预训练和更多的 RL/strawberry——两者都需要计算。为数亿用户提供产品也是如此!随着转向为您持续工作的更多代理产品,这需要计算。所以把 Stargate 想象成我们的工厂,它将电力/GPU 转化为适合您的超棒产品。”
看起来,DeepSeek与OpenAI已经形成了两种不同的技术路线。
DeepSeek代表了以更低的成本,尤其是计算成本,来实现更高的性能的路线。而OpenAI是Scaling Law的忠实信仰者,仍然坚持“大力出奇迹”——如果继续扩展计算,就能继续扩展性能。
这两种不同路线的选择就是实现AGI的分水岭吗?
(封面图来源:OpenAI)
责任编辑:韦子蓉
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.