以“模塑全球无限可能”为主题的2025GDC全球开发者先锋大会于2月21日-2月23日在上海徐汇举办,旨在探索大模型产业化解决方案,推进场景落地应用,实现商业模式的正向闭环。
在2月22日的商汤大模型生产力论坛上,商汤绝影CEO,商汤科技联合创始人、首席科学家王晓刚重磅发布了行业首个与世界模型协同交互的端到端自动驾驶路线R-UniAD,通过构建世界模型生成在线交互的仿真环境,以此进行端到端模型的强化学习训练。这与春节开始持续受到市场关注的DeepSeek技术创新思路同归一源:从模仿学习向强化学习升级演进,从而实现端到端自动驾驶超越人类的驾驶表现。
(商汤绝影CEO,商汤科技联合创始人、首席科学家王晓刚发布与世界模型协同交互的端到端自动驾驶路线R-UniAD。)
强化学习的技术创新可迁移到端到端自动驾驶领域
“算法、算力和数据三者共同推动着人工智能技术的螺旋式上升和进步,随着强化学习等算法引入到大模型训练的思路得到验证,新的尺度定律正在开启,数据价值被进一步深入挖掘,模型能力天花板被打开。”王晓刚表示,强化学习的技术创新也同样可以迁移到端到端自动驾驶领域。
基于UniAD端到端自动驾驶方案和开悟世界模型,商汤绝影R-UniAD将通过强化学习加速智驾跨越式演进。在4月即将到来的上海车展上,商汤绝影将重磅发布R-UniAD端到端自动驾驶方案,并完成实车部署,持续引领端到端智驾技术的潮流。
今年春节期间,DeepSeek-R1基于纯强化学习的关键创新引发了广泛的关注。通过少量高质量数据的冷启动,模型进行多阶段的强化学习训练,有效降低大模型训练的数据规模门槛,同时也让尺度定律得以延续,为模型变得更大更强铺平了道路。更重要的是,强化学习能够让大模型自行涌现出长思维链能力,显著提升推理效果,甚至可能具备超越人类的思维能力。
王晓刚表示,基于强化学习的大模型技术路线可以迁移到端到端自动驾驶算法的训练与研发之中。
(基于强化学习,商汤绝影提出与世界模型协同交互的端到端技术路线)
从数据规模来看,多阶段强化学习的训练方法能大幅降低端到端自动驾驶数据规模门槛。R-UniAD就是通过高质量数据进行冷启动,用模仿学习的方式训练出一个端到端基础模型,再通过强化学习方法进行训练。据测算,小样本多阶段学习的技术路线能让端到端自动驾驶的数据需求降低一个数量级,让车企合作伙伴有望换道超车特斯拉FSD。
从性能上限来看,纯强化学习训练让端到端智驾模型有望通过在提升性能的同时,充分探索多元场景和驾驶风格。未来,端到端智驾体验的上限不再是“类人”,而是可以拥有超越人类的驾驶表现。
商汤绝影发布与世界模型协同交互的端到端自动驾驶技术路线R-UniAD
2月22日,商汤绝影率先发布与世界模型协同交互的端到端自动驾驶技术路线R-UniAD,成为行业首个将基于世界模型的强化学习引入端到端智驾的研发与训练的AI公司。
商汤绝影的R-UniAD是多阶段强化学习端到端自动驾驶技术路线,具体分为三个阶段,首先是依靠冷启动数据通过模仿学习进行云端的端到端自动驾驶大模型训练;然后基于强化学习,让云端的端到端大模型与世界模型协同交互,持续提升端到端模型的性能;最后云端大模型通过高效蒸馏的方式,实现高性能端到端自动驾驶小模型的车端部署。
(商汤绝影R-UniAD:“多阶段强化学习”端到端自动驾驶技术路线)
因为端到端智驾模型是一个多模态具身模型,最关键的是要与依靠世界模型生成的仿真环境进行在线交互,并获得闭环奖励反馈,从而实现强化学习,使得端到端模型的训练能够充分探索各种可能性。也就是说,能够生成高保真的场景数据、保证长时推演一致性、并支持在线交互的强大世界模型是R-UniAD的核心基石。
在现场演示中,商汤绝影展示了“开悟”世界模型与主车闭环交互的方式。通过场景库文件导入一个BEV视角下的初始主车和他车位置,世界模型自动生成主车视角下11V(11个摄像头)的传感器仿真数据,端到端模型接收到这一数据后,生成自车下一时刻位置并进行反馈,世界模型根据刷新的主车位置和预测的他车位置渲染新的11V传感器仿真数据。
商汤绝影的量产端到端智驾方案预计将在年底交付,“开悟”世界模型也正式用于数据生产,已经抢占新技术路线的先机。而在4月的上海车展,商汤绝影将会展示与世界模型协同交互的端到端自动驾驶方案的实车部署。
(文章来源:广州日报)
免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。