國產大模型競速升級,商湯徐立稱已進入“同步甚至超越”階段

南方都市報
04-11

  在通往通用人工智能(AGI)的路徑上,多模態正成爲技術演進的關鍵節點。

  4月10日,南都灣財社記者獲悉,商湯科技在“2025技術交流日”上發佈了新一代大模型系列“日日新SenseNova V6”,涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型,聚焦視覺、文本、語音等多模態能力的融合與落地。

  “AI之道,在於百姓之日用。”商湯集團董事長徐立在現場表示,多模態不僅是補充文本數據不足的核心要素,更是提升學習效率的關鍵方式。隨着通用能力增強,大模型將逐步走入更多真實生活場景,因此要解決模型“好用”而非“能用”的落地瓶頸。

  徐立表示,早期大模型領域由OpenAI等海外公司佔據領先地位,但進入今年以來,中國大模型的研發進展顯著提速,在多個維度已具備與海外同步發佈、甚至實現局部超越的能力。“像GPT-4.5剛發沒多久,我們在很多指標上已經超越了GPT-4.5,也就是說中國的模型在很多情況下,能夠同步發出對標甚至超越美國同期發佈的模型。”他認爲,這種趨勢反映了行業認知的逐步轉變,也標誌着國產技術體系正在加速縮小差距、建立自主優勢。

  商湯新動作的背後,也折射出國內大模型競爭正從規模競賽轉向“推理+落地”雙重比拼。近一個月,百度“文心一言4.0”、字節“豆包大模型”紛紛強化多模態佈局,MiniMax等創業公司也在語音、視頻理解上快速突破。業內普遍認爲,隨着語音對話、視頻生成、具身智能等新場景湧現,原生多模態架構將成爲未來行業的技術主線。

  多模態“重構”大模型技術路徑

  在行業從“百模大戰”進入深水區之後,多模態正成爲國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同,如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言爲中心的範式已難獨立承載通用智能的需求,融合圖像、語音、視頻等多源信息,成爲邁向AGI的必要一環。

  “現在已經用完了互聯網上大部分的文本數據。”徐立在演講中指出,海量的圖像、視頻、三維等非文本模態中蘊藏着尚未被系統挖掘的知識寶藏。他強調:“從數據量來看,多模態是補充人類智能的核心要素;從學習方法上,多模態也是效率更高的。”

  而在技術實現上,多模態融合並非模態簡單堆疊,而是涉及“原生架構”的深度設計難題。

  商湯科技聯合創始人林達華在接受南都灣財社等媒體採訪時表示,模型之間“加法式”的拼接會帶來模態之間能力的削弱,必須通過從底層架構打通各模態之間的聯繫,才能實現真正的融合。他提到,商湯從2023年中起就在攻克模態橋接技術,構建統一的感知-推理鏈條。

  不只商湯在推進融合架構的落地,百度、阿里等廠商也在強調“多模態原生訓練”能力。

  百度文心大模型已在圖文理解、多圖推理等任務上開放測試,通義千問亦在視頻、音頻輸入的端到端處理上投入資源。新興玩家如Moonshot AI、智譜AI也相繼發佈包含圖像理解或視頻摘要功能的模型,爭奪“多模態AI”新高地。

  同時,落地場景正在反向塑造模型架構。商湯科技聯合創始人、大裝置事業羣總裁楊帆指出,模型結構的變化往往是“被需求倒逼的”。在自動駕駛、車艙交互、虛擬客服等商用環境中,多模態不僅是性能指標,更關乎成本控制與響應速度。例如SenseNova V6系列中,輕量化的Omini模型專爲視頻語音交互優化,延遲控制在500毫秒內,是“從業務中生長出來的技術”。

  多模態也在改變大模型訓練的邏輯。徐立指出,“規模化堆卡”的思路正在降溫,模型能力的增長更多依賴於思維鏈構建、數據精度優化與場景適配。他認爲,“模型的成長方式可以是更有效的強化學習,而非簡單的token數量提升。”這種趨勢正促使國產廠商將更多精力投入“數據與結構”的系統優化。

  在業內看來,多模態正成爲技術、商業和交互維度交匯的核心陣地。隨着硬件部署成本下降、智能終端普及,面向語音、圖像、視頻的模型能力將逐步由雲端向端側延伸,構成“輕量模型+交互場景”的新範式。國產大模型廠商正試圖通過這一路徑,打破“強算力+大模型”壁壘,實現從科研展示走向真實使用的跨越。

  落地爲王,廠商競逐“最後一公里”

  隨着大模型從“能力競賽”轉向“場景比拼”,如何穿越從研發到應用的“最後一公里”,成爲行業共同面臨的挑戰。一方面,多數廠商仍在探索“To C”的路徑;另一方面,“To B+To G”的場景成爲當前最現實的突破口。

  徐立指出,大模型最終要“在真實的環境中解決那些日常煩瑣、但重要的行業需求”,這不僅是應用落地的核心,也是一家AI公司能否建立護城河的關鍵。

  商湯近年來持續推進“三位一體”(AI基礎設施、大模型、行業應用)戰略,是爲打通這一鏈條。徐立認爲,“當AI聚集了人類現有的大量平均水平的知識後,就能夠用觸類旁通的能力,爲開放問題形成確定性的解決方案。”這意味着,模型的商業價值,往往取決於能否嵌入具體業務流程之中,成爲“工具”而非“玩具”。

  林達華也強調,真正有生命力的Agent,必須落在活生生的場景裏。他舉例稱,商湯爲保險公司提供多模態模型服務,能夠從理賠資料中識別潛在騙保行爲,“這不是demo,而是業務鏈條的一部分”,體現了“智能體+行業知識”結合的實際價值。

  從行業整體來看,金融、教育、文旅、車載、政務等B端場景成爲國產廠商主要試水地。百度將文心大模型嵌入政務熱線與金融客服系統,阿里雲則主打財務分析與合同審覈。新興玩家如MiniMax、智譜AI也在拓展企業知識管理與智能問答等垂類場景,試圖建立“從模型到產品”的打包能力。

  大模型企業在商業化上的打法也愈加分化。一類聚焦“產品化”模型,以“智能體+工具鏈”切入SaaS市場;另一類則強調“平臺化”能力,爲其他開發者和行業夥伴提供底層模型和API接口。在林達華看來,這兩者並不衝突,但“唯有深入產業,才能形成數據飛輪和場景粘性”,這是國產大模型實現長效商業化的根基。

  “AI之道,在於百姓之日用。”徐立表示,從“炫技”走向“實用”,國產大模型能否真正進入尋常人家的日常,還需穿越技術與場景之間的灰色地帶。行業博弈的下半場,拼的不再是參數和榜單,而是理解現實世界、嵌入實際流程的能力。

(文章來源:南方都市報)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10