智通财经APP获悉,AI领域又有新动作!3月6日,阿里云通义千问官方宣布发布并开源全新的推理模型通义千问QwQ-32B。据了解,这款拥有325亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1满血版相媲美,并超过了OpenAI o1-mini。而且此次以Apache 2.0开源协议开源,意味着大家可以完全免费商用。二级市场上,阿里昨日在港股市场出现较大涨幅,截至目前,港股阿里巴巴-W(09988)报138港元,涨幅6.24%。
实际上,在去年11月28日,阿里就已经开源了预览版的推理大模型QwQ-32B-Preview,彼时DeepSeek R1尚未发布,这应该是当时最早开源的推理大模型之一。三个月后的今天,QwQ-32B正式开源,去掉了预览版的标签。与之前的预览版相比,正式版在上下文长度和AIME评分等方面有显著提升,例如上下文长度从32K增加到131K,AIME评分提升了50%。
具体来看,QwQ-32B在多个基准测试中均表现出很强的竞争力,阿里云对QwQ-32B 测试了数学推理、编程能力和通用能力,并展示了 QwQ-32B 与其他领先模型的性能对比,包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini以及原始的DeepSeek-R1。
在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与 DeepSeek-R1 相当,远胜于o1-mini及相同尺寸的 R1 蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难 LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek- R1。
目前,QwQ-32B已在Hugging Face和ModelScope开源,并采用了Apache 2.0开源协议,用户可以免费体验其强大的推理能力。
在致力于开发下一代Qwen的过程中,阿里云计划将更强大的基础模型与依托规模化计算资源的RL相结合,从而使其更接近实现人工通用智能。此外,阿里云正积极探索将智能体与RL集成,以实现长时推理。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.