商湯推出「文理兼修」的融合大模型，能為用戶解決複雜問題

　　國內大模型測評機構SuperCLUE最新發布的《中文大模型基準測評2024年度報告》顯示，商湯「日日新」融合大模型以總分68.3與 DeepSeek V3並列國產大模型榜首。另一個綜合評測機構OpenCompass開展的多模態評測中，「日日新」融合大模型同樣位列榜首，分數領先於GPT-4o。

　　去年以來，原生多模態大模型逐漸成為業內關注的重要方向。由於數據和訓練方法的侷限，業內很多機構的嘗試並不成功。多模態訓練過程往往會導致純語言任務（尤其是指令跟隨和推理任務）的性能嚴重下降。如今，商湯融合大模型測評排名的領先，意味着原生融合模態訓練已取得突破，將引領業界從大語言模型和多模態大模型分立的現狀，走向真正意義的模型一統，為深度推理能力與多模態信息結合鋪平了道路。

OpenCompass開展的多模態評測中，「日日新」融合大模型位列榜首。

　　據介紹，「日日新」融合大模型「文理兼修」，在SuperCLUE年度評測中，文科成績以81.8分排名全球第一，超越OpenAI的o1模型；理科成績也很出色，其中計算維度以78.2分排名國內第一。

　　實現原生模態融合後，這個融合大模型不僅能達到人類「看」和「想」的水平，還能幫助用戶解決更多複雜問題，看不清的字體、數據圖表裏的信息、文學創作與文本撰寫……這些都可以實現。

　　英文草書難以辨認，發給「日日新」融合大模型看看，它能快速、準確地識別。

「日日新」融合大模型能準確識別英文草書。

　　在圖表分析場景中，關鍵要素提取、信息分析、給出結論，這幾個步驟它能合一迅速完成。

融合大模型合一迅速完成圖表分析的幾個步驟。

　　它也會化身數學和物理老師，為各種難題給出詳細的解答。

融合大模型解出一道數學題。

　　與傳統大語言模型僅支持單一文本輸入的模式相比，融合大模型具有明顯優勢，能有效滿足用戶對圖像、視頻、語音、文本等多源異構信息的綜合處理與識別需求，尤其是在自動駕駛、視頻交互、辦公教育、金融、園區管理、工業製造等擁有豐富模態信息的應用場景中。例如在辦公、金融領域，表格、文本、圖片、視頻以及融合上述形式的豐富信息，很適合融合大模型分析處理。基於「日日新」的「辦公小浣熊」應用可以高效地處理這些複雜任務。

　　基於融合大模型的優勢，「日日新」在視覺交互上也有豐富的應用場景，例如在線上教育、語音客服等場景，均可以結合語音和自然語言來提升交互體驗。

　　商湯研發團隊認為，開發多模態模型是AI 2.0實現應用場景落地的必由之路。在推動語言模型和多模態模型融合的過程中，他們研製出兩項關鍵的創新技術——融合模態數據合成與融合任務增強訓練，進而完成「日日新」融合大模型的訓練。

　　在預訓練階段，這家企業不僅採用了天然存在的海量圖文交錯數據，還通過逆渲染、基於混合語義的圖像生成等方法，合成了大量融合模態數據，在圖文模態之間建立了很多交互橋樑，使模型基座對於模態之間的豐富關係有更紮實的把握，也為更好地完成跨模態任務打下堅實基礎，從而提升了整體性能。

　　在後訓練階段，商湯基於對衆多業務場景的了解，構建了大量的跨模態任務，包括視頻交互、多模態文檔分析、城市場景理解、車載場景理解等。把這些任務融入增強訓練後，融合模態模型不僅被激發出強大的多模態信息理解分析能力，還形成了對業務場景有效的響應能力，走通了應用落地「反哺」基礎模型迭代的閉環。

（文章來源：上觀新聞）

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

商湯推出「文理兼修」的融合大模型，能為用戶解決複雜問題

熱議股票