商湯推出“文理兼修”的融合大模型,能為用戶解決複雜問題

上觀新聞
01-10

  國內大模型測評機構SuperCLUE最新發布的《中文大模型基準測評2024年度報告》顯示,商湯“日日新”融合大模型以總分68.3與 DeepSeek V3並列國產大模型榜首。另一個綜合評測機構OpenCompass開展的多模態評測中,“日日新”融合大模型同樣位列榜首,分數領先於GPT-4o。

  去年以來,原生多模態大模型逐漸成爲業內關注的重要方向。由於數據和訓練方法的侷限,業內很多機構的嘗試並不成功。多模態訓練過程往往會導致純語言任務(尤其是指令跟隨和推理任務)的性能嚴重下降。如今,商湯融合大模型測評排名的領先,意味着原生融合模態訓練已取得突破,將引領業界從大語言模型和多模態大模型分立的現狀,走向真正意義的模型一統,爲深度推理能力與多模態信息結合鋪平了道路。

OpenCompass開展的多模態評測中,“日日新”融合大模型位列榜首。

  據介紹,“日日新”融合大模型“文理兼修”,在SuperCLUE年度評測中,文科成績以81.8分排名全球第一,超越OpenAI的o1模型;理科成績也很出色,其中計算維度以78.2分排名國內第一。

  實現原生模態融合後,這個融合大模型不僅能達到人類“看”和“想”的水平,還能幫助用戶解決更多複雜問題,看不清的字體、數據圖表裏的信息、文學創作與文本撰寫……這些都可以實現。

  英文草書難以辨認,發給“日日新”融合大模型看看,它能快速、準確地識別。

“日日新”融合大模型能準確識別英文草書。

  在圖表分析場景中,關鍵要素提取、信息分析、給出結論,這幾個步驟它能合一迅速完成。

融合大模型合一迅速完成圖表分析的幾個步驟。

  它也會化身數學和物理老師,爲各種難題給出詳細的解答。

融合大模型解出一道數學題。

  與傳統大語言模型僅支持單一文本輸入的模式相比,融合大模型具有明顯優勢,能有效滿足用戶對圖像、視頻、語音、文本等多源異構信息的綜合處理與識別需求,尤其是在自動駕駛、視頻交互、辦公教育、金融、園區管理、工業製造等擁有豐富模態信息的應用場景中。例如在辦公、金融領域,表格、文本、圖片、視頻以及融合上述形式的豐富信息,很適合融合大模型分析處理。基於“日日新”的“辦公小浣熊”應用可以高效地處理這些複雜任務。

  基於融合大模型的優勢,“日日新”在視覺交互上也有豐富的應用場景,例如在線上教育、語音客服等場景,均可以結合語音和自然語言來提升交互體驗。

  商湯研發團隊認爲,開發多模態模型是AI 2.0實現應用場景落地的必由之路。在推動語言模型和多模態模型融合的過程中,他們研製出兩項關鍵的創新技術——融合模態數據合成與融合任務增強訓練,進而完成“日日新”融合大模型的訓練。

  在預訓練階段,這家企業不僅採用了天然存在的海量圖文交錯數據,還通過逆渲染、基於混合語義的圖像生成等方法,合成了大量融合模態數據,在圖文模態之間建立了很多交互橋樑,使模型基座對於模態之間的豐富關係有更紮實的把握,也爲更好地完成跨模態任務打下堅實基礎,從而提升了整體性能。

  在後訓練階段,商湯基於對衆多業務場景的瞭解,構建了大量的跨模態任務,包括視頻交互、多模態文檔分析、城市場景理解、車載場景理解等。把這些任務融入增強訓練後,融合模態模型不僅被激發出強大的多模態信息理解分析能力,還形成了對業務場景有效的響應能力,走通了應用落地“反哺”基礎模型迭代的閉環。

(文章來源:上觀新聞)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10