OpenAI发布了下一代模拟推理模型o3和o3-mini

环球市场播报
21 Dec 2024

  周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。该公司尚未发布这些模型,但今天将使这些模型可用于公共安全测试和研究。

  这些模型使用OpenAI所称的“私人思维链”,模型会暂停检查其内部对话,并在响应之前提前计划,你可以称之为“模拟推理”(SR),即一种超越基本大型语言模型(llm)的人工智能形式。

  为了避免与英国电信运营商o2发生潜在的商标冲突,该公司将其命名为“o3”而不是“o2”。在周五的直播中,奥特曼承认了他的公司命名的缺点,他说:“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”

  根据OpenAI的说法,o3模型在ARC-AGI基准上获得了破纪录的分数,ARC-AGI基准是一种视觉推理基准,自2019年创建以来一直保持不败。在低计算场景中,o3得分为75.7%,而在高计算测试中,它达到了87.5%,与人类在85%阈值下的表现相当。

  OpenAI还报告说,o3在2024年美国数学邀请赛中得分为96.7%,只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上,o3解决了25.2%的问题,而其他模型都没有超过2%。

  同样在周五发布的o3-mini版本包括自适应思考时间功能,提供低、中、高处理速度。该公司表示,更高的计算设置可以产生更好的结果。OpenAI报告说,在Codeforces基准测试中,o3-mini的性能超过了它的前身o1。

  模拟推理正在兴起

  在OpenAI宣布这一消息之际,其他公司也在开发自己的SR模型,包括谷歌,谷歌周四宣布了Gemini 2.0 Flash Thinking Experimental。去年11月,DeepSeek推出了DeepSeek- r1,而阿里巴巴的Qwen团队则发布了QwQ,他们称QwQ是01的第一个“开放”替代品。

  OpenAI将首先向安全研究人员提供新的SR模型进行测试。奥特曼说,公司计划在1月底推出o3-mini,随后不久推出o3。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:李桐

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10