国内大模型测评机构SuperCLUE最新发布的《中文大模型基准测评2024年度报告》显示,商汤“日日新”融合大模型以总分68.3与 DeepSeek V3并列国产大模型榜首。另一个综合评测机构OpenCompass开展的多模态评测中,“日日新”融合大模型同样位列榜首,分数领先于GPT-4o。
去年以来,原生多模态大模型逐渐成为业内关注的重要方向。由于数据和训练方法的局限,业内很多机构的尝试并不成功。多模态训练过程往往会导致纯语言任务(尤其是指令跟随和推理任务)的性能严重下降。如今,商汤融合大模型测评排名的领先,意味着原生融合模态训练已取得突破,将引领业界从大语言模型和多模态大模型分立的现状,走向真正意义的模型一统,为深度推理能力与多模态信息结合铺平了道路。
OpenCompass开展的多模态评测中,“日日新”融合大模型位列榜首。
据介绍,“日日新”融合大模型“文理兼修”,在SuperCLUE年度评测中,文科成绩以81.8分排名全球第一,超越OpenAI的o1模型;理科成绩也很出色,其中计算维度以78.2分排名国内第一。
实现原生模态融合后,这个融合大模型不仅能达到人类“看”和“想”的水平,还能帮助用户解决更多复杂问题,看不清的字体、数据图表里的信息、文学创作与文本撰写……这些都可以实现。
英文草书难以辨认,发给“日日新”融合大模型看看,它能快速、准确地识别。
“日日新”融合大模型能准确识别英文草书。
在图表分析场景中,关键要素提取、信息分析、给出结论,这几个步骤它能合一迅速完成。
融合大模型合一迅速完成图表分析的几个步骤。
它也会化身数学和物理老师,为各种难题给出详细的解答。
融合大模型解出一道数学题。
与传统大语言模型仅支持单一文本输入的模式相比,融合大模型具有明显优势,能有效满足用户对图像、视频、语音、文本等多源异构信息的综合处理与识别需求,尤其是在自动驾驶、视频交互、办公教育、金融、园区管理、工业制造等拥有丰富模态信息的应用场景中。例如在办公、金融领域,表格、文本、图片、视频以及融合上述形式的丰富信息,很适合融合大模型分析处理。基于“日日新”的“办公小浣熊”应用可以高效地处理这些复杂任务。
基于融合大模型的优势,“日日新”在视觉交互上也有丰富的应用场景,例如在线上教育、语音客服等场景,均可以结合语音和自然语言来提升交互体验。
商汤研发团队认为,开发多模态模型是AI 2.0实现应用场景落地的必由之路。在推动语言模型和多模态模型融合的过程中,他们研制出两项关键的创新技术——融合模态数据合成与融合任务增强训练,进而完成“日日新”融合大模型的训练。
在预训练阶段,这家企业不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法,合成了大量融合模态数据,在图文模态之间建立了很多交互桥梁,使模型基座对于模态之间的丰富关系有更扎实的把握,也为更好地完成跨模态任务打下坚实基础,从而提升了整体性能。
在后训练阶段,商汤基于对众多业务场景的了解,构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。把这些任务融入增强训练后,融合模态模型不仅被激发出强大的多模态信息理解分析能力,还形成了对业务场景有效的响应能力,走通了应用落地“反哺”基础模型迭代的闭环。
(文章来源:上观新闻)
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.