Goku 是由香港大學與字節跳動聯合研發的多模態AI視頻生成模型,基於校正流Transformer架構(Rectified Flow Transformer),專為圖像與視頻的聯合生成優化。
該模型於2025年2月正式發布技術報告。
智源研究院發布並解讀國內外100餘個開源和商業閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項評測結果,語言模型主觀評測重點考察模型中文能力,結果顯示,字節跳動Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。
文本生成視頻:Goku能夠根據用戶提供的文本描述生成完整的視頻內容。通過理解文本中的細節和情節,Goku將其轉化為動態視頻,適用於廣告製作、營銷視頻、短視頻創作等場景。
圖像生成視頻:用戶只需提供一張靜態圖像,Goku即可基於這張圖片生成動態視頻。這一功能特別適合電商和品牌推廣,可以將產品圖片轉化為生動的廣告視頻。
文本生成圖像:除了視頻生成,Goku還支持根據文本描述生成靜態圖像。用戶輸入具體的文字信息,Goku能生成符合描述的高質量圖像,廣泛應用於創意設計、廣告、插畫等領域。
高質量生成:Goku的圖像與視頻生成效果非常真實,能夠清晰地表現人物情感和細節,展示出廣告產品的細膩質感。
業內人士認為,目前國產視頻大模型在畫面的一致性、可控性、豐富程度上都有明顯提升,提高成像質量、突破生成時長瓶頸後,有望大幅打開下游商業化空間。
文生視頻概念相關港股:
快手-W(01024):可靈大模型由快手大模型團隊自研打造,具備強大的視頻生成能力,能夠根據用戶提供的文本描述生成高質量的視頻內容。
美圖公司(01357):美圖公司推出的MiracleVision 4.0 AI視頻生成功能為用戶提供了強大的視頻生成能力,具有高質量的生成效果和良好的細節處理能力,適用於多種內容創作和商業應用場景。
商湯-W(00020):2024年7月4日,商湯科技發布人物視頻生成大模型Vimi;7月6日,上線AI生成視頻模型清影。
騰訊(00700):12月3日,騰訊混元大模型上線視頻生成功能。
阿里巴巴(09988):9月19日,阿里雲通義萬相發布視頻生成模型,上線文生視頻和圖生視頻功能;