周五,大英百科全书与词典出版社梅里亚姆-韦伯斯特向法院提交了对 OpenAI 的诉状。两家公司称,OpenAI 在训练其模型时反复复制了它们受版权保护的内容,随后生成的回答与原文“在很大程度上相似”。这起诉讼把关于 AI 训练数据的争论又推到台面上。
诉讼的主要指控
- 原告称 OpenAI 在未经许可的情况下多次复制其内容用于训练模型,并指出 GPT-4 本身已经“记住”了大量大英百科的受版权内容,并会在需要时输出接近原文的复制。诉状称这些“记住”的例子是未经授权的复制品,OpenAI 用来训练包括 GPT-4 在内的模型。
- 诉状中提供了模型生成的回答与大英百科文本并列对照的示例,部分段落看起来与原文逐字匹配。
- 大英百科还指控 OpenAI 在“吞噬”其网站流量。也就是说,AI 的回答往往直接给出信息,替代了用户访问百科网站,未像传统搜索引擎那样把用户导向原始来源,从而影响了原告的流量和收入。
这不是第一起类似案件
过去几年,出版机构针对 AI 公司的版权诉讼越来越多。纽约时报也对 OpenAI 提出了类似指控,称其复制了大量受版权保护的内容以训练模型。另一个例子是 Anthropic,去年与作者达成集体和解,因使用受版权保护的图书训练模型,需要支付 15 亿美元的赔偿。
为什么这件事重要
- 版权与训练数据:如果法院认定未经许可使用受版权材料训练模型构成侵权,许多 AI 公司可能需要改变数据获取和训练流程。
- 透明度要求:出版商要求知道模型是如何训练的以及用了哪些来源。更高的透明度可能会成为法律或行业标准。
- 对内容提供者的影响:若 AI 回答直接替代访问原网站,内容提供者可能面临流量和收入下降的风险。
- 行业成本:赔偿或和解会影响新公司和研究项目的资金安排,可能促使业界寻找替代数据或付费许可模式。
接下来可能发生什么
案件可能走向长期诉讼,也可能以和解收尾。无论结果如何,这类官司都会推动关于 AI 使用第三方内容界限的更清晰规则。对用户而言,短期内可能看不到明显变化,但对行业和出版生态的长期影响值得关注。
总结:大英百科和梅里亚姆-韦伯斯特的起诉把关于 AI 如何获取与使用信息的问题再度带回公众视野。未来法院的判断和行业的回应,将决定 AI 在处理受版权材料时要遵守哪些规则。