港股概念追踪 | “剑指”AGI!OpenAI发布新一代推理模型o3 大模型落地应用有望加速(附概念股)

智通财经
23 Dec 2024

智通财经APP获悉,OpenAI离AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。上周五,在“OpenAI 12天活动”的第12天,OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini,这两款模型是在今年早些时候推出的o1模型的基础上开发的。OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。

OpenAI在9月份推出了o1系列大模型,他们上周五推出o3系列,在命名上就越过了o2,没有遵循数字一样的连续命名方式。对于越过o2,有报道称可能是为了避免和英国电信运营商O2在命名上产生纷争。而在当天的直播中,萨姆·奥尔特曼承认了他们在命名上的不足,他表示基于OpenAI不太擅长命名的传统,新的大模型被命名为o3。

同9月份推出的o1系列大模型一样,OpenAI新宣布的o3系列大模型也有o3和o3 mini两款,不过尚未正式发布,o3 mini是预计会在明年年初发布。

从OpenAI方面公布的消息来看,o3大模型在测试中的表现明显强于他们之前推出的大模型,在部分测试中的表现已经达到了人类的水平。

在ARC-AGI测试中,o3在低推理能力设置下的得分达到了75.7%,是o1的3倍,在高推理能力设置下则是高达87.5%,超过了85%的人类门槛。

在数学推理及解决问题的能力方面,o3也表现不俗,在2024年AIME测试中,o3的准确率达到了96.7%。

在编码和软件工程方面,o3的能力较o1也有大幅提升,在SWE-Bench认证中,o3的得分为71.7%,较o1提升了22.8个百分点。

值得注意的是,有报道提到,在Codeforces的测试中,o3的得分为2727,比OpenAI首席科学家的得分还高。Codeforces是一家为计算机编程爱好者提供在线评测的网站,是一个面向程序员的在线竞赛平台。

除了OpenAI,各家AI公司近期也纷纷发布推理模型。

11月16日,月之暗面(Moonshot AI)Kimi推出新一代数学推理模型k0-math;11月20日,DeepSeek发布了首个推理模型DeepSeek-R1-Lite预览版;11月28日,阿里云通义团队发布全新AI推理模型QwQ-32B-Preview。

在当地时间12月19日,谷歌也发布首个推理模型Gemini 2.0 Flash Thinking。它使用了类似o1模型的慢思维思考方式,可以深度可视化展示整个思维链过程,尤其是在执行数学、编程等复杂问题方面。相比o1,Gemini 2.0 Flash Thinking的最大差别是,让用户能看到一步一步推理的过程,更清晰、更透明地了解模型如何得出结论。它刚亮相就登上了Chatbot Arena大模型评估的榜首。不过,谷歌的这一新模型还处于实验性阶段,只是一个早期版本。

国金证券认为,从中美资本市场AI产业链的表现看,此前持续表现强劲的是上游,近期表现强势的是AI应用。从落地方向上看,综合考虑成本与付费能力,可能先行的是To B方向降本增效,生产力工具可能先行,然后是To C的大用户量工具、图文级别的社交娱乐类产品、海量的多媒体娱乐产品。展望未来,随着大模型使用成本持续下降、中文语言模型能力继续提升背景下,落地应用有望加速,中国企业有文化基础、数据积累、场景理解、工程应用、客情关系等优势,有机会形成自己的产业龙头。

申万宏源称,北京时间2024年12月21日,OpenAI在连续12发布会收官之日宣布了o3系列模型, 包括o3和o3 mini,较o1 模型再一次突破AI 极限。近阶段大模型启示:1)大模型进展从预训练端转变为推理端;2)大模型进入Agent爆发时代;3)利好推理端算力需求;4)应用方面围绕解决复杂任务能力的出现,利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域。

港股相关概念股:

创新奇智(02121):公司“AI+制造业”的持续驱动力充足。公司从2023年开始,实施AI1.0和AI2.0双塔发展,AI2.0逐步推出ChatX系列垂类大模型的应用落地和预研,并在今年3月底发布了AnnoGC-75B工业大模型(750亿参数),在15B大模型的基础上增加了多模态。目前ChatX已包括ChatBI,ChatDoc,Chatvision,ChatCAD和Chatrobot等5大主要落地产品。公司9大细分领域覆盖公司的工业软件,数智软件,工业物流,智能装备和工业可持续五大场景,ChatBI已在食品饮料智造领域的工业软件和数智软件场景规模落地,ChatDoC和Chatvision在工业可持续场景规模落地。ChatCAD在CAD工业设计领域想象空间更大,通过大模型可以改写传统CAD设计模式,通过文字,语言直接进行CAD设计,大幅提升CAD设计效率,预计今年公司开始ChatCAD的落地实践工作。ChatRobot是大模型驱动工业机器人自动任务编排,驱动和实施工作部署,公司在大模型发布会上已做了现场演示,虽然还在预研验证阶段,但已初步具备工业应用的落地前景,潜力大。

百度集团-SW(09888):百度文心大模型截至2024年11月的日均tokens(token是大模型文本处理的最小单位)调用量超过1.5亿次,比一年前的5000万次实现了约30倍的增长,文心一言用户量达到7000万。

阿里巴巴-SW(09988):阿里云在5月初发布的通义千问2.5,得分就追平GPT-4 Turbo。目前,阿里已经投资了Minimax、月之暗面、零一万物、智谱AI、百川智能等国内主流大模型创业公司

商汤-W(00020):公司在2024年的上交会上展示了其最新的医疗健康大模型——“大医”,这一模型代表了商汤在医疗AI领域的最新成果。在专业医学任务评测中,“大医”在检验检查问答、电子病历生成、线上问诊、导诊、随访、辅助诊断决策等多项医疗任务上的表现已超越GPT-4。

中兴通讯(00763):公司重视在人工智能领域布局与投入,凭借领先的软硬件数智基座能力,提供端到端的智算解决方案,包括智算基础设施、AI软件平台、大模型及应用,满足不同场景需求,助力企业数智化转型。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10