在通往通用人工智能(AGI)的路徑上,多模態正成為技術演進的關鍵節點。
4月10日,南都灣財社記者獲悉,商湯科技在「2025技術交流日」上發布了新一代大模型系列「日日新SenseNova V6」,涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型,聚焦視覺、文本、語音等多模態能力的融合與落地。
「AI之道,在於百姓之日用。」商湯集團董事長徐立在現場表示,多模態不僅是補充文本數據不足的核心要素,更是提升學習效率的關鍵方式。隨着通用能力增強,大模型將逐步走入更多真實生活場景,因此要解決模型「好用」而非「能用」的落地瓶頸。
徐立表示,早期大模型領域由OpenAI等海外公司佔據領先地位,但進入今年以來,中國大模型的研發進展顯著提速,在多個維度已具備與海外同步發布、甚至實現局部超越的能力。「像GPT-4.5剛發沒多久,我們在很多指標上已經超越了GPT-4.5,也就是說中國的模型在很多情況下,能夠同步發出對標甚至超越美國同期發布的模型。」他認為,這種趨勢反映了行業認知的逐步轉變,也標誌着國產技術體系正在加速縮小差距、建立自主優勢。
商湯新動作的背後,也折射出國內大模型競爭正從規模競賽轉向「推理+落地」雙重比拼。近一個月,百度「文心一言4.0」、字節「豆包大模型」紛紛強化多模態佈局,MiniMax等創業公司也在語音、視頻理解上快速突破。業內普遍認為,隨着語音對話、視頻生成、具身智能等新場景湧現,原生多模態架構將成為未來行業的技術主線。
多模態「重構」大模型技術路徑
在行業從「百模大戰」進入深水區之後,多模態正成為國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同,如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言為中心的範式已難獨立承載通用智能的需求,融合圖像、語音、視頻等多源信息,成為邁向AGI的必要一環。
「現在已經用完了互聯網上大部分的文本數據。」徐立在演講中指出,海量的圖像、視頻、三維等非文本模態中蘊藏着尚未被系統挖掘的知識寶藏。他強調:「從數據量來看,多模態是補充人類智能的核心要素;從學習方法上,多模態也是效率更高的。」
而在技術實現上,多模態融合併非模態簡單堆疊,而是涉及「原生架構」的深度設計難題。
商湯科技聯合創始人林達華在接受南都灣財社等媒體採訪時表示,模型之間「加法式」的拼接會帶來模態之間能力的削弱,必須通過從底層架構打通各模態之間的聯繫,才能實現真正的融合。他提到,商湯從2023年中起就在攻克模態橋接技術,構建統一的感知-推理鏈條。
不只商湯在推進融合架構的落地,百度、阿里等廠商也在強調「多模態原生訓練」能力。
百度文心大模型已在圖文理解、多圖推理等任務上開放測試,通義千問亦在視頻、音頻輸入的端到端處理上投入資源。新興玩家如Moonshot AI、智譜AI也相繼發布包含圖像理解或視頻摘要功能的模型,爭奪「多模態AI」新高地。
同時,落地場景正在反向塑造模型架構。商湯科技聯合創始人、大裝置事業羣總裁楊帆指出,模型結構的變化往往是「被需求倒逼的」。在自動駕駛、車艙交互、虛擬客服等商用環境中,多模態不僅是性能指標,更關乎成本控制與響應速度。例如SenseNova V6系列中,輕量化的Omini模型專為視頻語音交互優化,延遲控制在500毫秒內,是「從業務中生長出來的技術」。
多模態也在改變大模型訓練的邏輯。徐立指出,「規模化堆卡」的思路正在降溫,模型能力的增長更多依賴於思維鏈構建、數據精度優化與場景適配。他認為,「模型的成長方式可以是更有效的強化學習,而非簡單的token數量提升。」這種趨勢正促使國產廠商將更多精力投入「數據與結構」的系統優化。
在業內看來,多模態正成為技術、商業和交互維度交匯的核心陣地。隨着硬件部署成本下降、智能終端普及,面向語音、圖像、視頻的模型能力將逐步由雲端向端側延伸,構成「輕量模型+交互場景」的新範式。國產大模型廠商正試圖通過這一路徑,打破「強算力+大模型」壁壘,實現從科研展示走向真實使用的跨越。
落地為王,廠商競逐「最後一公里」
隨着大模型從「能力競賽」轉向「場景比拼」,如何穿越從研發到應用的「最後一公里」,成為行業共同面臨的挑戰。一方面,多數廠商仍在探索「To C」的路徑;另一方面,「To B+To G」的場景成為當前最現實的突破口。
徐立指出,大模型最終要「在真實的環境中解決那些日常煩瑣、但重要的行業需求」,這不僅是應用落地的核心,也是一家AI公司能否建立護城河的關鍵。
商湯近年來持續推進「三位一體」(AI基礎設施、大模型、行業應用)戰略,是為打通這一鏈條。徐立認為,「當AI聚集了人類現有的大量平均水平的知識後,就能夠用觸類旁通的能力,為開放問題形成確定性的解決方案。」這意味着,模型的商業價值,往往取決於能否嵌入具體業務流程之中,成為「工具」而非「玩具」。
林達華也強調,真正有生命力的Agent,必須落在活生生的場景裏。他舉例稱,商湯為保險公司提供多模態模型服務,能夠從理賠資料中識別潛在騙保行為,「這不是demo,而是業務鏈條的一部分」,體現了「智能體+行業知識」結合的實際價值。
從行業整體來看,金融、教育、文旅、車載、政務等B端場景成為國產廠商主要試水地。百度將文心大模型嵌入政務熱線與金融客服系統,阿里雲則主打財務分析與合同審核。新興玩家如MiniMax、智譜AI也在拓展企業知識管理與智能問答等垂類場景,試圖建立「從模型到產品」的打包能力。
大模型企業在商業化上的打法也愈加分化。一類聚焦「產品化」模型,以「智能體+工具鏈」切入SaaS市場;另一類則強調「平台化」能力,為其他開發者和行業夥伴提供底層模型和API接口。在林達華看來,這兩者並不衝突,但「唯有深入產業,才能形成數據飛輪和場景粘性」,這是國產大模型實現長效商業化的根基。
「AI之道,在於百姓之日用。」徐立表示,從「炫技」走向「實用」,國產大模型能否真正進入尋常人家的日常,還需穿越技術與場景之間的灰色地帶。行業博弈的下半場,拼的不再是參數和排行榜,而是理解現實世界、嵌入實際流程的能力。
(文章來源:南方都市報)