北京時間週二深夜,阿里巴巴正式開源旗下視頻生成模型萬相2.1模型。頂級前沿模型的開源浪潮,終於湧向由AI驅動的視頻創作領域。
這也是本週AI產業“諸神混戰”的最新一章。週一美國Anthropic公司意外發布首個混合推理模型Claude 3.7 Sonnet。與此同時,DeepSeek也在持續開源5個代碼庫,趕忙上架“最強大模型”的xAI將推出一系列應用層面的優化。美國科技巨頭亞馬遜也已經定檔週三,將給語音助手Alexa帶來“AI升級”。坊間也有傳言稱,OpenAI可能會在本週推出GPT-4.5。
根據通義介紹,此次開源的是兩個版本的模型:14B版本適用於專業創作者迅速上手部署,而1.3B參數量的版本在家用顯卡(注:官方給的例子是英偉達4090)上用單卡8.2G顯存就能生成480P高質量視頻。性能甚至能與某些5B參數量的閉源大模型相媲美。
受此消息影響,阿里巴巴美股盤中異動拉昇,帶動中概股集體走強。
根據視頻生成模型的“大模型排行榜”,萬相2.1在VBench基準測試中位居全球第一,力壓美圖奇想、OpenAI Sora、Adobe/麻省理工的CausVid、蘋果 STIV等一衆國內外競品。
而行業領跑者的主動開源,而且是全部推理代碼和權重全部開源,意味着視頻生成模型賽道將會更加生機勃勃,競爭和迭代也會變得更加激烈——對於消費者以及內容產業的從業者而言,生產力躍升的速度也會變得更快、成本和使用門檻將快速降低。
作爲全球領先的視頻生成模型,萬相2.1的技術突破主要體現在兩點,首先是能夠展現複雜穩定的人物肢體動作,以及精準還原碰撞、反彈等複雜物理場景。這決定了AI生成的視頻是否具有足夠的真實性。
而且大模型也能駕馭各種風格和題材。
另一個巨大的優勢,是萬相2.1能夠直接通過提示詞,在視頻中生成中文字(英文字也可以),以及特殊藝術效果。可以想見,隨着這個模型的開源,中文AI應用市場又將迎來一波新玩法的升級。
在AI視頻中準確生成文字,不論是中文還是英文,是絕大多數競品目前未能達到的高度。
隨着萬相2.1完全開源,OpenAI、谷歌等競品也將直面商業化的挑戰:更好的模型已經開源了,AI生成視頻的定價也將面臨挑戰。
拖了一整年後,OpenAI去年底終於發佈Sora產品,面向每月繳納20/200美元的訂閱用戶。同時由於算力不足,暫時沒有推出API的計劃。谷歌Veo 2模型則在近期披露定價,每生成1秒視頻需要付費0.5美元,相當於生成一個小時的視頻需要花費1800美元。
本文轉載自財聯社,智通財經編輯:陳雯芳。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。