作者|陈骏达
编辑|漠影
智东西2月25日报道,今天,阿里通义千问团队推出QwQ-Max-Preview深度思考模型,并支持联网搜索,展现出超强的通用能力,不仅现场锐评了最新的《哪咤2》电影,还能写代码、做数学题,并可以胜任创意写作、游戏开发等开放性任务。这款模型会在不久后开源,目前已在通义千问的新官网上线,仅需点击聊天框左下角的“深度思考(QwQ)”按钮即可体验。
QwQ-Max-Preview的博客文章有满屏醒目的颜文字,并附上跳转到体验页面和Discord的链接,还特别标注出这篇博客是正是由新模型亲自操刀的,模型撰写博客时的思考过程也被一并呈现在文内。
体验链接:https://chat.qwen.ai/
Discord链接:https://discord.com/invite/yPEP2vHTu4
在DeepSeek推出DeepSeek-R1深度思考模型后,阿里和腾讯都争相推出了类R1的深度推理模型。QwQ-Max-Preview基于Qwen2.5-Max构建,在数学、编程以及通用任务中展现了更强的能力,同时在与Agent相关的工作流中也有不错的表现。作为即将发布的QwQ-Max的预览版,这个版本还在持续优化中。
通义千问团队计划在不久的将来以Apache 2.0许可协议开源发布QwQ-Max以及Qwen2.5-Max。此外,通义千问计划面向全球用户推出Qwen Chat App,并开源更适合端侧的小尺寸推理模型。
博客内,通义千问团队放出了多个实测案例。
通义千问的深度思考模型能与联网功能结合,根据实时互联网信息进行推理,先来看看通义千问是怎么评价《哪咤2》的。在打开深度思考和联网搜索功能后,千问快速查询互联网信息,并在思考过程中与答案里都清晰地引用信源。
下方是QwQ对《哪咤2》的评价,截图后由Qwen2.5-VL-72B-Instruct翻译:
下一个案例主要展现了模型的代码能力。提示词为“创建一个p5.js脚本,用于在旋转的球体内创建100个弹跳的黄色小球。小球被限制在球体内,并且正确处理了碰撞检测。球体缓慢旋转以产生动态效果。”
长时间思考后,QwQ-Max-Preview输出了71行代码,并附上了对代码主要功能的描述和使用指南,可以说是十分全面了。复制代码并运行后,可以看到动画的效果基本符合提示词要求。
不过,当智东西将同款提示词甩给体验链接中的QwQ-Max-Preview,它给出的代码运行后可以说是“车祸现场”,黄色小球漫天飞舞,完全忽视了“小球被限制在球体内”这一要求。这一现象或许是由于预览版本尚不稳定。
接下来的测试任务是游戏开发。QwQ-Max-Preview收到的需求是:“在同一个HTML文件中创建一个游戏。发挥你的想象力,将俄罗斯方块和2048游戏结合成一个游戏。”
模型开发出的新游戏确实将两款游戏的玩法结合了起来,原版2048游戏是通过滑动方块进行相同数字的消除,而新游戏中数字将会从上方掉落,需要玩家进行操作并消除。
这款模型还能胜任更为复杂的游戏开发任务,例如下方提示词这种带调整的:
创建一个棋盘游戏网页,显示一个六边形网格,就像在《卡坦岛》游戏中一样。每个六边形网格都标有从1到N的数字,其中N是六边形格子的总数。使其具有通用性,以便可以使用滑块更改“环”的数量。例如,在《卡坦岛》中,半径为3个六边形。请使用单个HTML页面。
案例中模型对提示词的理解还是比较到位的,拖动滑块确实可以修改环的数量。
不过,在我们用同样提示词进行的实测中,完成效果依旧不太理想,从六边形的形状到格子的排列,都与原提示词的要求有些偏差,还出现了超出显示范围的问题。或许在未来正式版发布后,这些问题能得到解决。
通义千问思考模型本次还融入了Agent能力,支持工具选择,不过目前的体验版本尚不支持。在博客文章中提供的案例里,可以看到这些工具包括图像生成、物流追踪、二维码生成、港股行情等。
示例中,测试人员选择了二维码生成器和图像生成两款工具,要求模型生成一个穿着白色连衣裙的女孩,然后展示一个指向taobao.com的二维码图片。
生成结果是这样的,可以看到模型选择了二次元的画风,画面内容符合要求,二维码实测也可以跳转至淘宝官网。
据通义千问团队介绍,本次他们既会开源满血版思考模型,也将推出轻量级的变体,还会将其融入应用,此举是为了让不同层次用户都能体验到这款模型的能力。他们也邀请全球开发者社群对这些模型进行实验、优化和扩展,探索从教育工具到agent等多样化应用场景。
QwQ-Max-Preview的发布及将要到来的开源,意味着阿里也正式加入了这波推理模型的开源潮。阿里的Qwen系列模型作为当今全球影响力最大的开源模型家族之一,衍生模型数量已经超过9万个,还霸榜了Hugging Face开源榜单的全球前10名。在正式版的QwQ-Max开源发布后,或许还会给全球开发者带来更多的惊喜。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.