阿里AI又有新動作!最新推理模型QwQ-32B證明了小參數也能實現大模型級別的性能。
3月6日,阿里通義千問Qwen團隊推出推理模型——QwQ-32B大語言模型。據官方介紹,這款僅有320億參數的模型在性能上不僅能夠媲美擁有6710億參數的DeepSeek-R1(其中370億被激活),更在某些測試中超越了對方。
阿里Qwen團隊表示,這一成果突顯了將強化學習應用於經過大規模預訓練的強大基礎模型的有效性,希望以此證明強大的基礎模型疊加大規模強化學習也許是一條通往通用人工智能的可行之路。
除了基礎推理能力外,QwQ-32B還集成了與Agent相關的能力,使其能夠在使用工具的同時進行批判性思考,並根據環境反饋調整推理過程。
根據官方披露的測試結果,QwQ-32B在多項關鍵評測中表現卓越:
在測試數學能力的AIME24評測集上,QwQ-32B與DeepSeek-R1表現相當,遠超o1-mini及同尺寸的R1蒸餾模型
在評估代碼能力的LiveCodeBench中,表現同樣與DeepSeek-R1相當
在Meta首席科學家楊立昆領銜的"最難LLMs評測榜"LiveBench上,QwQ-32B得分超越DeepSeek-R1
在谷歌等提出的指令遵循能力IFEval評測集中,成績優於DeepSeek-R1
在加州大學伯克利分校等提出的評估準確調用函數或工具的BFCL測試中,同樣超越DeepSeek-R1
有海外網友展示了不同推理模型在LiveBench評分中的表現,以及它們的輸出令牌成本。QwQ 32B模型的評分位於R1和o3-mini之間,但其成本僅爲它們的十分之一。這表明QwQ 32B在性能和成本之間取得了很好的平衡:
QwQ 32B的LiveBench評分約爲72.5分,成本約爲$0.25。 R1的評分約爲70分,成本約爲$2.50。 o3-mini的評分約爲75分,成本約爲$5.00。
QwQ-32B的卓越性能主要歸功於其採用的大規模強化學習方法。阿里團隊在冷啓動基礎上開展了分階段強化學習訓練策略:
初始階段:重點針對數學和編程任務進行RL訓練。團隊摒棄了傳統的獎勵模型(reward model),轉而採用更直接的驗證方式,通過校驗生成答案的正確性來爲數學問題提供反饋,並通過代碼執行服務器評估生成的代碼是否成功通過測試用例來提供代碼的反饋。
擴擴展階段:增加了針對通用能力的RL訓練。這一階段使用通用獎勵模型和基於規則的驗證器,幫助模型在保持數學和編程能力的同時,提升其他通用能力。
研究表明,隨着RL訓練輪次的增加,模型在數學和編程領域的性能均呈現持續提升趨勢,印證了這種方法的有效性。
目前,QwQ-32B已在Hugging Face和ModelScope平臺開源,採用Apache 2.0開源協議。同時,用戶也可以通過Qwen Chat直接體驗這款強大的推理模型。
阿里Qwen團隊表示,QwQ-32B只是他們在大規模強化學習增強推理能力方面的第一步。未來,他們將致力於將更強大的基礎模型與依託規模化計算資源的RL相結合,並積極探索將智能體與RL集成,以實現長時推理,目標是通過推理時間擴展釋放更高的智能。
隨着模型參數規模的增長已經進入瓶頸期,如何在現有參數規模下進一步提升模型能力成爲業界關注焦點。QwQ-32B的突破或將引領新一輪AI技術發展方向,進一步推動從"大力出奇跡"向"精巧出智慧"的範式轉變。
對此,科技自媒體數字生命卡茲克感嘆道:
這波QwQ-32B開源的意義,還是非常強的。
它用實力證明RLHF路線還能玩出花,打破了一些人對GPT4.5撞牆後的過度悲觀。
用中等規模卻拿到高級性能,給開源界注入了強大信心,你也不必搞那種天價設備和超大規模,也有機會跟國際巨頭同場競技。
QwQ-32B的發佈與阿里近期宣佈的AI戰略高度一致。據報道,阿里集團計劃在未來三年投入超過3800億元建設雲和AI硬件基礎設施,總投入將超過過去十年總和。
此前,阿里自研的"深度思考"推理模型已在夸克AI搜索平臺上線,成爲國內少數沒有接入DeepSeek的大體量C端AI應用。
在基礎模型層面,阿里通義大模型家族已躋身全球頂尖開源模型行列。有知情人士透露,"更大規模的模型也將陸續接入夸克"。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。