Goku 是由香港大学与字节跳动联合研发的多模态AI视频生成模型,基于校正流Transformer架构(Rectified Flow Transformer),专为图像与视频的联合生成优化。
该模型于2025年2月正式发布技术报告。
智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果,语言模型主观评测重点考察模型中文能力,结果显示,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五。
文本生成视频:Goku能够根据用户提供的文本描述生成完整的视频内容。通过理解文本中的细节和情节,Goku将其转化为动态视频,适用于广告制作、营销视频、短视频创作等场景。
图像生成视频:用户只需提供一张静态图像,Goku即可基于这张图片生成动态视频。这一功能特别适合电商和品牌推广,可以将产品图片转化为生动的广告视频。
文本生成图像:除了视频生成,Goku还支持根据文本描述生成静态图像。用户输入具体的文字信息,Goku能生成符合描述的高质量图像,广泛应用于创意设计、广告、插画等领域。
高质量生成:Goku的图像与视频生成效果非常真实,能够清晰地表现人物情感和细节,展示出广告产品的细腻质感。
业内人士认为,目前国产视频大模型在画面的一致性、可控性、丰富程度上都有明显提升,提高成像质量、突破生成时长瓶颈后,有望大幅打开下游商业化空间。
文生视频概念相关港股:
快手-W(01024):可灵大模型由快手大模型团队自研打造,具备强大的视频生成能力,能够根据用户提供的文本描述生成高质量的视频内容。
美图公司(01357):美图公司推出的MiracleVision 4.0 AI视频生成功能为用户提供了强大的视频生成能力,具有高质量的生成效果和良好的细节处理能力,适用于多种内容创作和商业应用场景。
商汤-W(00020):2024年7月4日,商汤科技发布人物视频生成大模型Vimi;7月6日,上线AI生成视频模型清影。
腾讯(00700):12月3日,腾讯混元大模型上线视频生成功能。
阿里巴巴(09988):9月19日,阿里云通义万相发布视频生成模型,上线文生视频和图生视频功能;
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.