Goku 是由香港大學與字節跳動聯合研發的多模態AI視頻生成模型,基於校正流Transformer架構(Rectified Flow Transformer),專爲圖像與視頻的聯合生成優化。
該模型於2025年2月正式發佈技術報告。
智源研究院發佈並解讀國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果,語言模型主觀評測重點考察模型中文能力,結果顯示,字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。
文本生成視頻:Goku能夠根據用戶提供的文本描述生成完整的視頻內容。通過理解文本中的細節和情節,Goku將其轉化爲動態視頻,適用於廣告製作、營銷視頻、短視頻創作等場景。
圖像生成視頻:用戶只需提供一張靜態圖像,Goku即可基於這張圖片生成動態視頻。這一功能特別適合電商和品牌推廣,可以將產品圖片轉化爲生動的廣告視頻。
文本生成圖像:除了視頻生成,Goku還支持根據文本描述生成靜態圖像。用戶輸入具體的文字信息,Goku能生成符合描述的高質量圖像,廣泛應用於創意設計、廣告、插畫等領域。
高質量生成:Goku的圖像與視頻生成效果非常真實,能夠清晰地表現人物情感和細節,展示出廣告產品的細膩質感。
業內人士認爲,目前國產視頻大模型在畫面的一致性、可控性、豐富程度上都有明顯提升,提高成像質量、突破生成時長瓶頸後,有望大幅打開下游商業化空間。
文生視頻概念相關港股:
快手-W(01024):可靈大模型由快手大模型團隊自研打造,具備強大的視頻生成能力,能夠根據用戶提供的文本描述生成高質量的視頻內容。
美圖公司(01357):美圖公司推出的MiracleVision 4.0 AI視頻生成功能爲用戶提供了強大的視頻生成能力,具有高質量的生成效果和良好的細節處理能力,適用於多種內容創作和商業應用場景。
商湯-W(00020):2024年7月4日,商湯科技發佈人物視頻生成大模型Vimi;7月6日,上線AI生成視頻模型清影。
騰訊(00700):12月3日,騰訊混元大模型上線視頻生成功能。
阿里巴巴(09988):9月19日,阿里雲通義萬相發佈視頻生成模型,上線文生視頻和圖生視頻功能;
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。