“几乎没有一家大模型公司的AI视频生成训练,会找视频网站授权。”2025年伊始,在视频生成领域立志“追平Sora”的大模型公司,撞上了版权墙。
AI创业者陈临告诉字母榜(ID:wujicaijing),这其中也包括被称为“AI六小虎”的6家中国大模型独角兽。而缺乏授权的模型训练,势必将成为大模型公司们的潜在风险。
如今,在热度不减的AI视频生成赛道,“视频平台诉大模型侵权”第一案已经出现。
日前,有报道称爱奇艺起诉MiniMax旗下海螺AI侵犯著作权,据悉事由或为MiniMax未经授权使用了爱奇艺享有版权的素材进行模型训练,目前正在走司法程序。对此,爱奇艺回复字母榜,确认案件正在审理中。MiniMax则尚无正式回应。
就在去年9月MiniMax刚刚推出视频大模型时,其创始人闫俊杰对字母榜表示,MiniMax用于训练的数据,除了语料公司的高质量数据,还有部分采购来的平台化数据。
图注:MiniMAX创始人闫俊文介绍海螺AI
图源:字母榜拍摄
大公司也屡屡因版权陷入纠纷。去年8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录数百万个YouTube 视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。OpenAI的前任CEO Mira,曾在采访中被记者提问是否拿YouTube的视频训练Sora,Mira选择了拒绝回答。
虽然OpenAI已经和Politico、《大西洋月刊》《时代》《金融时报》等签订了付费协议用于训练,但这类授权都属于文字领域,陈临告诉字母榜,在Sora视频的训练协议中,“OpenAI还没有签过相应的协议。”
数据、算法和算力是AI大模型的三大支柱,其中数据更是大模型进行训练的根本。可以说,生成式AI的繁荣是建立在数据规模之上的。训练数据越多,模型就越强大。数据赋予模型用于学习和思考的海量知识,数据也成了模型厂商技术壁垒的一部分。
不像BAT们,在图文时代、移动互联网时代早已积攒起巨量的私域数据库,并且这些数据早已被不同平台瓜分。晚来的大模型六小龙,被重重壁垒所环绕。
一旦爱奇艺的诉讼成功,或许预告着一场更大规模的大模型版权纠纷时代的来临。
“爱奇艺成功了,优酷、腾讯视频也可能会起诉,”陈临表示,这无疑是兜头浇了狂奔中的大模型公司们一盆冷水。对于独立进行大模型训练的公司来说,“视频要版权费,图片也要版权费,文字可能也要版权费,致使AI的训练成本会比现在高出许多。”
如今,孰是孰非暂无定论,只是可以肯定的是,大模型的狂飙路上,正在竖起一面新的版权墙。
国内AI视频生成第一个侵权案,已经出现了。
近日,据外媒报道,MiniMax被指控未经授权使用爱奇艺享有版权的素材进行模型训练,爱奇艺已向上海市徐汇区人民法院提起诉讼,要求MiniMax立即停止侵权行为,并索赔约10万元人民币。
去年8月底,MiniMax推出视频大模型,用户登录海螺AI就能体验MiniMax的视频生成模型。根据AI产品榜数据,去年9月,海螺AI搜索热度暴涨,海螺AI网页版9月访问量增幅达860%,一举登顶2024年9月全球及国内AI应用增速榜首。
不过,加入“追平Sora”大军的MiniMax,也如同OpenAI被《纽约时报》起诉一样,撞上了版权墙。
根据我国法律规定,生成式人工智能服务提供者必须采用“合法来源”的数据和基础模型,以确保不侵犯他人的知识产权。
《互联网法律评论》主编张颖告诉字母榜,在这场民事诉讼中,爱奇艺起诉,需要证明MiniMax存在未经其允许的情况下使用爱奇艺数据训练,并且在生成内容中包含了其版权内容。此外,爱奇艺还需要证明被告在主观上有过错,即故意或者未尽到注意义务。
也就是说,海螺AI的“侵权”存在两种可能。
一种可能是MiniMax海螺AI视频生成的训练中,未经授权使用了爱奇艺享有版权的素材内容。
另一种可能,则是用户使用海螺AI时,未经爱奇艺授权,上传了版权素材做AI“魔改”。
图注:AI魔改视频,下方都备注内容疑似用AI技术合成
图源:字母榜截图
《甄嬛传》变枪战片、《红楼梦》变武打剧,用AI视频工具就能让尔康喝啤酒、甄嬛啃汉堡、林黛玉抄起加特林。陈临表示,以上这些AI“魔改”经典影视剧的小视频,都在社交平台得到数百万的播放量。
这些“没有逻辑,只有搞笑”的AI“魔改”视频,大多没有授权,“部分是大模型公司推广产品时,委托第三方投流公司的作品,更多的则是用户的无厘头脑洞。”去年12月,广电网络视听司也发布了《管理提示》,提出要排查清理AI“魔改”影视剧的短视频。这意味着生成式AI将面临更细致的内容审核。
而作为被起诉方,如果MiniMax想证明自己没有侵权,大概需要证明自身数据来源、生成内容与爱奇艺无关,或者没有故意侵权。
在海螺AI的用户协议中,也要求用户保证不利用平台制作的内容或用于相关用途,包括“未经授权自行剪切、改编电影、电视剧、网络影视剧等各类视听节目及片段”。
不过,值得注意的是,“10万元赔偿金对爱奇艺来说太少了。”张颖表示,尽管缺乏爱奇艺的起诉书作为依据,但从金额来看,推测MiniMax的侵权情况可能并不严重,双方和解的可能性很大。 走向和解,对于MiniMax来说,不管是照价赔偿10万元,还是交上一笔不菲的版权费,都似乎免不了为版权墙“破财”了。
实际上,“国内AI从业者对于训练数据没有很高的版权意识,通常认为版权会阻碍AI训练。”
离开某大厂开始AI应用创业后,陈临发现,国内主动要求版权授权的AI训练公司似乎并不多。原因不仅在于本身便高昂的AI训练成本,也是由于一旦视频、图片,甚至文字都需要版权,对于AI创企来说,“模型就没法训练了。”
不少AI创企做视频生成训练的第一步,正是“从网上扒视频训练”。
为了规避版权风险,企业会通过关键词过滤,尽量避免用户输入比如米老鼠这种版权字眼,来减少生成侵权内容。
图注:以即梦AI为例,AI视频生成自动过滤关键词
图源:陈临提供
新壹科技CEO雷涛告诉字母榜,作为To B的AIGC视频生成公司,新壹科技用来训练AI视频大模型的数据,来自此前在秒拍、小咖秀等应用的数据积累,还有定向合作数据库,以及依托原算法训练的“从无到有”的素材。但只有AI视频生成的足够真实,才能起到训练效果。
而对于既没有攒够数据,又付不起定向合作版权费的AI创企而言,想要坐上牌桌,撞上版权墙,或早或晚,都是必然的结果。
不过,这种争议并不是新鲜事。
在图文时代,图片版权的纠纷一度让创作者们“不敢配图”。有自媒体大V被告知,历史文章中有数十张来自搜索引擎的图片涉嫌侵权,在删除全部原创文章后,还支付了不菲的侵权费用于和解。有摄影师使用了自己拍摄的173张照片进行配图,却被视觉中国提起诉讼,指其侵权。
如今,轮到AI站上了被告席。
在国内,去年6月,4名画师起诉小红书AI大模型“Trik AI”侵权,这是国内第一起AI模型训练数据集体侵权的案件,如今诉讼正在进行。
在国外,Meta、OpenAI都曾陷入版权纠纷。
去年4月底,《纽约每日新闻》《芝加哥论坛报》等美国八家知名报纸联合起诉OpenAI和微软,指控它们未经允许使用数百万篇版权新闻文章训练其AI聊天机器人。为此,OpenAI 与 Politico、《大西洋月刊》《时代》《金融时报》等新闻出版商达成付费协议,来使用并引用版权新闻文章。
早在2023年5月,OpenAI首席执行官奥特曼便公开承认,AI公司在不久的将来会耗尽互联网上所有的数据。2024年6月,研究机构Epoch AI也发布研究预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间,被科技公司耗尽。
对于大模型创企来说,高质量的数据永远稀缺,大模型公司间的算力战、应用战,也将拓展到数据战。
只是OpenAI的诉讼或许传达出了明确的信号,高质量的训练数据不是免费的。对于大模型创企而言,不像Meta、BAT等公司,早已积累起近20年的社交媒体数据,它们或许只能“花钱开路”。
不过,想要解决版权这个绊脚石,大模型公司们需要回答一个问题,钱从哪里来?
对于尚未盈利的大模型创企而言,投资人的钱袋子越来越紧了。
根据字母榜统计,大模型六小虎(包括零一万物、MiniMax、百川智能、智谱AI、阶跃星辰、月之暗面)中,2024年有五家拿到亿元级融资。目前,智谱、月之暗面、百川智能、阶跃星辰的估值均已超200亿元。
但根据《智能涌现》报道,随着估值跨上200亿元台阶,国内大模型公司最新的单轮次融资规模将卡在50亿元左右。即估值越高,融资越难。根据华兴资本数据,2024年前三季度国内全市场投融资总额为2603亿元,不及近三年同期的40%。
以月之暗面为例,2024年2月份A+轮完成超10亿美元融资,投后估值一路涨至25亿美元。随后的8月,首轮参投的小红书、美团龙珠、红杉中国已不见身影,月之暗面B轮的融资额为超3亿美元。风波中的MiniMax,则在去年3月拿到6亿美元B轮融资后,暂未等来新的融资消息。
对于大模型创企们而言,“等钱开干”的紧迫性无异于等米下锅。
等来的数十亿元融资,大模型创企不仅要分给持续堆参数的模型训练,还要分给需要上亿元投流烧钱营销的AI应用,能留给大模型购买版权的钱,并不富裕。
而大模型创企的灵魂拷问远不止版权纠纷这一点,高昂的研发投入和颇为有限的商业变现,才是悬在“六小虎”头顶的达摩克利斯之剑。
马斯克曾估算,GPT-5的训练成本是3万-5万张H100,仅芯片成本就超过7亿美元(约合50亿元)。目前六小虎的收入均未透露,仅根据外媒爆料,MiniMax预计年收入7000万美元。目前看来,哪怕是已经在海外靠Talkie赚到钱的MiniMax,也难以在短期内实现营收打正。
大模型水温转凉,最先感知到的或许是扑腾其中的从业者。
“有一家大模型公司裁员后人数已经降到500人,另一家直接放弃了预训练和C端市场,剩下的几家几乎进入静默状态,不再开放HC(招聘名额)了。”
陈临告诉字母榜,2024年年底几乎已经拿不到70w+的AI offer了。2023年只要有AI相关经验,就能有面试机会,现在过去一年,不仅要求有落地经验,涨薪幅度也打了折扣。目前除了北京之外,其他城市的AI岗位招聘也是少的可怜。
可以肯定的是,2025年想要继续留在牌桌上的大模型创企们,在模型训练过程中为版权付费只是第一步,降本不是长久之计,想法子赚钱增效,才是关键。
(文中陈临为化名)
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.