騰訊推出快思考模型：API 成本只有 deepseek 不到一半

最近，騰訊元寶可以說是“殺瘋了”，先是多款產品接入 deepseek，推出自研混元 T1 模型，又是猛推流，一度超越字節“豆包”登上中國區 App Store 免費榜第二，又是入駐微信生活服務“九宮格”。

在各家大模型紛紛推出深度思考模型的同時，騰訊混元又“反常”地推了一個快思考模型 Turbo S。

2 月 27 日，騰訊混元自研的快思考模型 Turbo S 正式發佈，目前已在騰訊雲和元寶上線。

區別於 Deepseek R1、混元 T1 等需要“想一下再回復”的慢思考模型，混元 Turbo S 能夠實現“秒回”，吐字速度提升一倍，首字時延降低 44%，同時在知識、數理、創作等方面也有突出表現。通過模型架構創新，Turbo S 部署成本也大幅下降，持續推動大模型應用門檻降低。

有研究表明，人類約 90%—95% 的日常決策依賴直覺，快思考正如人的“直覺”，爲大模型提供了通用場景下的快速響應能力，而慢思考更像理性思維，通過分析邏輯提供解決問題思路。快思考和慢思考的結合和補充，可以讓大模型更智能、更高效地解決問題。

據介紹，通過長短思維鏈融合，騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時，基於自研混元 T1 慢思考模型合成的長思維鏈數據，顯著改進了理科推理能力，實現模型整體效果提升。

作爲旗艦模型，Turbo S 未來將成爲騰訊混元系列衍生模型的核心基座，爲推理、長文、代碼等衍生模型提供基礎能力。

基於 Turbo S，通過引入長思維鏈、檢索增強和強化學習等技術，騰訊自研了推理模型 T1，該模型已在騰訊元寶上線，用戶可以選擇 Deepseek R1 或騰訊混元 T1 模型進行回答，具體操作上，在元寶中選擇 Hunyuan 模型，點亮 T1 即爲深度思考，不點亮則爲 Turbo S。

開發者和企業用戶已經可以在騰訊雲上通過 API 調用騰訊混元 Turbo S，即日起一週內免費試用。

定價上，Turbo S 輸入價格爲 0.8 元/百萬 tokens，輸出價格爲 2 元/百萬 tokens，相比前代混元 Turbo 模型價格下降數倍，是 deepseek API 成本的 1/2-1/4，團隊稱“比大模型界的拼多多還便宜”。另外，混元滿血 T1 將在 3 月初發布。

在 3 月 2 日騰訊混元的直播裏，騰訊混元專家團隊對這次推出的快思考模型做出了詳解，極客公園整理重點如下：

1、爲什麼要做“快思考”？

團隊通過分析和觀察發現，用戶約 90% 的請求都可以依靠大模型的“直覺”（即快思考模型），無需深度思考就能精準簡潔地給出答案，所以針對這些請求需要模型能更快、更準地回應。

對於剩下的約 10% 的請求，需要模型能進行深度思考甚至反思，從而給出更精準的答案。

同時，快思考模型不僅成本更低，還具備強大的數據融合能力，能夠融入 MySQL 模型或 Max 模型中的優質數據。

Turbo S 借鑑了騰訊的慢思考模型 Hunyuan T1 的數據，該模型使用一種稱爲長思維鏈合成的技術進行訓練。這有助於 Turbo S 在保持其速度優勢的同時，通過多步驟問題進行推理，使得對於其餘 10% 需要反覆反思思考的問題也能得到較精準答案。

2、技術解析：模型架構/工程優化

在業界通用的多個公開 Benchmark 上，騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。

*表格中，其它模型的評測指標來自官方評測結果，官方評測結果中不包含部分來自混元內部評測平臺

架構方面，通過創新性地採用了 Hybrid-Mamba-Transformer 融合模式，混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度，減少了 KV-Cache 緩存佔用，實現訓練和推理成本的下降。

傳統 Transformer 架構存在以下缺陷：

計算複雜度高，序列維度呈平方級關係，在訓練和推理時複雜度高；

推理時需要 KV-Cache，且隨着序列長度增加線性增加，部署成本高；預測時時間成本高，每步預測因疊加 KV-Cache 與序列長度呈線性關係，越往後生成越慢，尤其對於 Mamba 線性 Attention 機制，每步預測都是 O1 複雜度，所以需要做更高效的 attention 或甚至 linear 的 attention，目前行業內已有一些相關探索方案如 window attention、mobile、NSA 等，都是通過不同方式壓縮計算複雜度。

Hybrid-Mamba-Transformer 融合架構是混元 Turbo S 中的一項突破性架構創新，通過融合兩種強大的架構，平衡效率和上下文推理能力：

Mamba 是一種狀態空間模型（SSM），專爲高效處理長序列而設計，在內存使用上比 Transformer 更爲節省。與 Transformer 不同，後者在處理長文本時會遇到 KV-cache 內存的平方級擴展問題，而 Mamba 可以在不產生過多計算開銷的情況下處理更長的文本，更適合閱讀、總結和生成長文檔的回答（例如法律文本、研究論文等）。

儘管 Mamba 高效，但它在捕捉複雜的上下文關係方面不如 Transformer。Transformer 擅長理解複雜的模式和依賴關係，特別適合推理密集型任務，如數學運算、邏輯推理和問題解決，適用於多步驟推理、代碼生成和深度上下文理解。

混元 Turbo S 首次將 Mamba 應用於超大規模 MoE 模型 MoE（專家混合模型）通過每次查詢激活一部分參數，從而提高計算效率，在保持精度的同時充分利用了 Mamba 的高效性，同時也保留了 Transformer 在推理任務中的優勢。這一突破不僅降低了訓練和推理成本，還提升了速度和智能水平。

3、算法做到了哪些不一樣的工作？

長短思維鏈的融合。

通過長短思維鏈融合，對於需反覆推理反思的問題也能得到更精準答案，T1 模型可得到相對長鏈數據，將長鏈數據和短鏈數據融合訓練後採樣，採樣依據正確性和長度正確性，採用規則方法和濾波 model case，從而提升模型整體能力，尤其在數學、代碼、邏輯等強推理任務上表現更好，且短鏈模型能很好地融合長鏈能力，體驗更佳。

即短鏈模型其實體驗更佳，通過融合長鏈也能有很好的推理能力。

4、scaling law 還沒結束

GPT-4.5 是短鏈模型天花板的一個存在，但 API 的成本非常高，以百萬 tokens 計算約爲 150 美元，約是 Turbo S 成本 500 倍，且據推測，GPT-4.5 的激活參數量達萬億級別。因此，Turbo S 等快思考模型的出現，正是爲了在保證響應速度的同時，降低成本並保持較好的性能。

不管是模型 size 的 scaling 還是訓練數據的 scaling，目前 scaling law 遠未結束，現在中文互聯網上可獲取數據量各家差不多，誰能通過獲取或合成方式獲得更多數據量對模型 performance 來說是關鍵。

標註數據方面，更專業標註團隊對模型表現影響大，如小說創作、醫療方向等，擁有更專業標註團隊和數據的模型表現會更好，整體來看，在數據、算法、算力工程優化等方面對 scaling 的探索都遠未結束。

老虎證券

騰訊推出快思考模型：API 成本只有 deepseek 不到一半

熱議股票