最近,騰訊元寶可以說是“殺瘋了”,先是多款產品接入 deepseek,推出自研混元 T1 模型,又是猛推流,一度超越字節“豆包”登上中國區 App Store 免費榜第二,又是入駐微信生活服務“九宮格”。
在各家大模型紛紛推出深度思考模型的同時,騰訊混元又“反常”地推了一個快思考模型 Turbo S。
2 月 27 日,騰訊混元自研的快思考模型 Turbo S 正式發佈,目前已在騰訊雲和元寶上線。
區別於 Deepseek R1、混元 T1 等需要“想一下再回復”的慢思考模型,混元 Turbo S 能夠實現“秒回”,吐字速度提升一倍,首字時延降低 44%,同時在知識、數理、創作等方面也有突出表現。通過模型架構創新,Turbo S 部署成本也大幅下降,持續推動大模型應用門檻降低。
有研究表明,人類約 90%—95% 的日常決策依賴直覺,快思考正如人的“直覺”,爲大模型提供了通用場景下的快速響應能力,而慢思考更像理性思維,通過分析邏輯提供解決問題思路。快思考和慢思考的結合和補充,可以讓大模型更智能、更高效地解決問題。
據介紹,通過長短思維鏈融合,騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時,基於自研混元 T1 慢思考模型合成的長思維鏈數據,顯著改進了理科推理能力,實現模型整體效果提升。
作爲旗艦模型,Turbo S 未來將成爲騰訊混元系列衍生模型的核心基座,爲推理、長文、代碼等衍生模型提供基礎能力。
基於 Turbo S,通過引入長思維鏈、檢索增強和強化學習等技術,騰訊自研了推理模型 T1,該模型已在騰訊元寶上線,用戶可以選擇 Deepseek R1 或騰訊混元 T1 模型進行回答,具體操作上,在元寶中選擇 Hunyuan 模型,點亮 T1 即爲深度思考,不點亮則爲 Turbo S。
開發者和企業用戶已經可以在騰訊雲上通過 API 調用騰訊混元 Turbo S,即日起一週內免費試用。
定價上,Turbo S 輸入價格爲 0.8 元/百萬 tokens,輸出價格爲 2 元/百萬 tokens,相比前代混元 Turbo 模型價格下降數倍,是 deepseek API 成本的 1/2-1/4,團隊稱“比大模型界的拼多多還便宜”。另外,混元滿血 T1 將在 3 月初發布。
在 3 月 2 日騰訊混元的直播裏,騰訊混元專家團隊對這次推出的快思考模型做出了詳解,極客公園整理重點如下:
1、爲什麼要做“快思考”?
團隊通過分析和觀察發現,用戶約 90% 的請求都可以依靠大模型的“直覺”(即快思考模型),無需深度思考就能精準簡潔地給出答案,所以針對這些請求需要模型能更快、更準地回應。
對於剩下的約 10% 的請求,需要模型能進行深度思考甚至反思,從而給出更精準的答案。
同時,快思考模型不僅成本更低,還具備強大的數據融合能力,能夠融入 MySQL 模型或 Max 模型中的優質數據。
Turbo S 借鑑了騰訊的慢思考模型 Hunyuan T1 的數據,該模型使用一種稱爲長思維鏈合成的技術進行訓練。這有助於 Turbo S 在保持其速度優勢的同時,通過多步驟問題進行推理,使得對於其餘 10% 需要反覆反思思考的問題也能得到較精準答案。
2、技術解析:模型架構/工程優化
在業界通用的多個公開 Benchmark 上,騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。
*表格中,其它模型的評測指標來自官方評測結果,官方評測結果中不包含部分來自混元內部評測平臺
架構方面,通過創新性地採用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度,減少了 KV-Cache 緩存佔用,實現訓練和推理成本的下降。
傳統 Transformer 架構存在以下缺陷:
計算複雜度高,序列維度呈平方級關係,在訓練和推理時複雜度高;
推理時需要 KV-Cache,且隨着序列長度增加線性增加,部署成本高;預測時時間成本高,每步預測因疊加 KV-Cache 與序列長度呈線性關係,越往後生成越慢,尤其對於 Mamba 線性 Attention 機制,每步預測都是 O1 複雜度,所以需要做更高效的 attention 或甚至 linear 的 attention,目前行業內已有一些相關探索方案如 window attention、mobile、NSA 等,都是通過不同方式壓縮計算複雜度。
Hybrid-Mamba-Transformer 融合架構是混元 Turbo S 中的一項突破性架構創新,通過融合兩種強大的架構,平衡效率和上下文推理能力:
Mamba 是一種狀態空間模型(SSM),專爲高效處理長序列而設計,在內存使用上比 Transformer 更爲節省。與 Transformer 不同,後者在處理長文本時會遇到 KV-cache 內存的平方級擴展問題,而 Mamba 可以在不產生過多計算開銷的情況下處理更長的文本,更適合閱讀、總結和生成長文檔的回答(例如法律文本、研究論文等)。
儘管 Mamba 高效,但它在捕捉複雜的上下文關係方面不如 Transformer。Transformer 擅長理解複雜的模式和依賴關係,特別適合推理密集型任務,如數學運算、邏輯推理和問題解決,適用於多步驟推理、代碼生成和深度上下文理解。
混元 Turbo S 首次將 Mamba 應用於超大規模 MoE 模型 MoE(專家混合模型)通過每次查詢激活一部分參數,從而提高計算效率,在保持精度的同時充分利用了 Mamba 的高效性,同時也保留了 Transformer 在推理任務中的優勢。這一突破不僅降低了訓練和推理成本,還提升了速度和智能水平。
3、算法做到了哪些不一樣的工作?
長短思維鏈的融合。
通過長短思維鏈融合,對於需反覆推理反思的問題也能得到更精準答案,T1 模型可得到相對長鏈數據,將長鏈數據和短鏈數據融合訓練後採樣,採樣依據正確性和長度正確性,採用規則方法和濾波 model case,從而提升模型整體能力,尤其在數學、代碼、邏輯等強推理任務上表現更好,且短鏈模型能很好地融合長鏈能力,體驗更佳。
即短鏈模型其實體驗更佳,通過融合長鏈也能有很好的推理能力。
4、scaling law 還沒結束
GPT-4.5 是短鏈模型天花板的一個存在,但 API 的成本非常高,以百萬 tokens 計算約爲 150 美元,約是 Turbo S 成本 500 倍,且據推測,GPT-4.5 的激活參數量達萬億級別。因此,Turbo S 等快思考模型的出現,正是爲了 在保證響應速度的同時,降低成本並保持較好的性能。
不管是模型 size 的 scaling 還是訓練數據的 scaling,目前 scaling law 遠未結束,現在中文互聯網上可獲取數據量各家差不多,誰能通過獲取或合成方式獲得更多數據量對模型 performance 來說是關鍵。
標註數據 方面,更專業標註團隊對模型表現影響大,如小說創作、醫療方向等,擁有更專業標註團隊和數據的模型表現會更好,整體來看,在數據、算法、算力工程優化等方面對 scaling 的探索都遠未結束。