近日在上海舉辦的2025GDC全球開發者先鋒大會上,衆多科技前沿企業展示了最新成果,旨在探索大模型產業化解決方案,推進場景落地應用,實現商業模式的正向閉環。
其中,商湯絕影重磅發佈了行業首個“與世界模型協同交互的端到端自動駕駛路線R-UniAD”,通過構建世界模型生成在線交互的仿真環境,以此進行端到端模型的強化學習訓練。
“算法、算力和數據三者共同推動着人工智能技術的螺旋式上升和進步,隨着強化學習等算法引入到大模型訓練的思路得到驗證,新的尺度定律正在開啓,數據價值被進一步深入挖掘,模型能力天花板被打開。”在商湯大模型生產力論壇上,商湯絕影CEO,商湯科技聯合創始人、首席科學家王曉剛這樣表示。
商湯絕影此次推出的R-UniAD,與春節開始持續受到市場關注的DeepSeek技術創新思路同歸一源:從模仿學習向強化學習升級演進,從而實現端到端自動駕駛超越人類的駕駛表現。
那麼,模仿學習和強化學習的特徵分別是什麼?又有什麼區別?
如果以AI學下棋爲例的話,模仿學習就是照着棋譜,一步步走,將整個下棋過程完整復刻一遍;而強化學習則是讓AI在遵守規則的基礎上自己嘗試無數種下法,每贏一次就能獲得獎勵、升級策略,最後自己摸索出最佳下法。
到了如今非常主流的端到端自動駕駛領域,模仿學習就是通過海量的高質量人類駕駛數據,來實現最佳的“模仿”駕駛效果。
然而,基於模仿學習的技術範式,可以接近人類,卻難以突破人類能力上限。同時,受限於高質量場景數據的稀缺性和駕駛數據質量的參差不齊,端到端智駕方案要達到人類駕駛能力的天花板並不容易,動輒千萬Clips的高質量數據迴流更是形成了規模門檻。
這與人工智能如今面臨的困境是非常相似的。隨着互聯網上的數據紅利被“榨乾”,大模型性能的提升只能依靠進一步擴大算力規模和增加模型參數,演變成算力上的肌肉比拼,這也就是業內不少人驚呼“尺度定律(Scaling laws)已經失效”的原因。
這也是今年春節DeepSeek會引發軒然大波的原因。其R1基於少量高質量數據的冷啓動,通過多階段的強化學習訓練,就能大大降低大模型訓練的數據規模門檻,同時也讓尺度定律得以延續,爲模型變得更大更強鋪平了道路。
更重要的是,強化學習能夠讓大模型自行湧現出長思維鏈能力,顯著提升推理效果,甚至可能具備超越人類的思維能力。
王曉剛表示,基於強化學習的大模型技術路線,完全可以遷移到端到端自動駕駛算法的訓練與研發之中。
R-UniAD就是通過高質量數據進行冷啓動,用模仿學習的方式訓練出一個端到端基礎模型,再通過強化學習方法進行訓練的。
根據測算,小樣本多階段學習的技術路線能讓端到端自動駕駛的數據需求降低一個數量級,讓車企合作伙伴有望換道超車特斯拉FSD。
從性能上限來看,純強化學習訓練讓端到端智駕模型有望通過在提升性能的同時,充分探索多元場景和駕駛風格。未來,端到端智駕體驗的上限不再是“類人”,而是可以擁有超越人類的駕駛表現。
商湯絕影現場演示端到端算法與世界模型仿真環境實時交互
要達到這個目的,智駕模型就必須在世界模型生成的仿真環境進行在線交互,並獲得閉環獎勵反饋,從而實現強化學習。爲此,商湯絕影升級併發布了行業標杆級別的世界模型——“開悟”世界模型。
基於“開悟”,1個GPU產生的仿真數據相當於500臺量產車的數據採集效果,實車採集的真實數據和雲端生成的仿真數據在“車雲一體”的新範式下進行閉環流轉,使得端到端智駕系統的訓練更加全面、高效,大幅縮短了研發週期,降低了成本。
在2024年北京車展上,商湯絕影曾展示UniAD的實車上路成果,而在今年4月即將到來的上海車展上,商湯絕影的R-UniAD端到端自動駕駛方案也將正式發佈,並完成實車部署。
根據商湯絕影的規劃,此套方案能助力車企,在更小數量級的數據基礎上,超越特斯拉依靠百萬臺量產車數據迴流的自動駕駛方案。屆時它能否超越人類的駕駛水平,加速智能汽車駛入AGI全新未來,南都·灣財社將持續關注。
(文章來源:南方都市報)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。