超越Sora!阿里萬相大模型宣佈開源

新浪科技
02-25

  新浪科技訊 2月25日晚間消息,阿里雲宣佈旗下視覺生成基座模型萬相2.1(Wan)開源,此次開源採用最寬鬆的Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。

  據介紹,14B萬相模型在指令遵循、複雜運動生成、物理建模、文字視頻生成等方面表現突出,在權威評測集VBench中,萬相2.1以總分86.22%的成績超越Sora、Luma、Pika等國內外模型,穩居榜首位置。1.3B版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,僅需8.2GB顯存就可以生成高質量視頻,適用於二次模型開發和學術研究。

  在算法設計上,萬相基於主流DiT架構和線性噪聲軌跡Flow Matching範式,研發了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE爲例,爲了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實現了特徵緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長1080P視頻的高效編解碼。此外,通過將空間降採樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內存佔用。

  萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業界領先表現,並且斬獲5項第一。(文猛)

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:何俊熹

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10