@media (max-width: 767px) { .header__nav { position: static !important; opacity: 1 !important; pointer-events: auto !important; visibility: visible !important; background: none !important; } .nav-hamburger, .header__nav-close, .header__nav-menu-label, .header__nav-dither { display: none !important; } .header__nav-list { flex-direction: row !important; flex-wrap: wrap !important; width: auto !important; } .header__nav-utility { width: auto !important; border-top: none !important; margin-top: 0 !important; padding-top: 0 !important; } .header__nav-link { min-block-size: auto !important; font-size: 0.78rem !important; } }

大英百科与梅里亚姆-韦伯斯特起诉 OpenAI，称其让 GPT-4“记住”并复制版权内容

作者 Lena Morales 2 分钟阅读 3月17日 14:16

娱乐

大英百科与梅里亚姆-韦伯斯特起诉 OpenAI，称其让 GPT-4“记住”并复制版权内容

周五，大英百科全书与词典出版社梅里亚姆-韦伯斯特向法院提交了对 OpenAI 的诉状。两家公司称，OpenAI 在训练其模型时反复复制了它们受版权保护的内容，随后生成的回答与原文“在很大程度上相似”。这起诉讼把关于 AI 训练数据的争论又推到台面上。

诉讼的主要指控

原告称 OpenAI 在未经许可的情况下多次复制其内容用于训练模型，并指出 GPT-4 本身已经“记住”了大量大英百科的受版权内容，并会在需要时输出接近原文的复制。诉状称这些“记住”的例子是未经授权的复制品，OpenAI 用来训练包括 GPT-4 在内的模型。
诉状中提供了模型生成的回答与大英百科文本并列对照的示例，部分段落看起来与原文逐字匹配。
大英百科还指控 OpenAI 在“吞噬”其网站流量。也就是说，AI 的回答往往直接给出信息，替代了用户访问百科网站，未像传统搜索引擎那样把用户导向原始来源，从而影响了原告的流量和收入。

这不是第一起类似案件

过去几年，出版机构针对 AI 公司的版权诉讼越来越多。纽约时报也对 OpenAI 提出了类似指控，称其复制了大量受版权保护的内容以训练模型。另一个例子是 Anthropic，去年与作者达成集体和解，因使用受版权保护的图书训练模型，需要支付 15 亿美元的赔偿。

为什么这件事重要

版权与训练数据：如果法院认定未经许可使用受版权材料训练模型构成侵权，许多 AI 公司可能需要改变数据获取和训练流程。
透明度要求：出版商要求知道模型是如何训练的以及用了哪些来源。更高的透明度可能会成为法律或行业标准。
对内容提供者的影响：若 AI 回答直接替代访问原网站，内容提供者可能面临流量和收入下降的风险。
行业成本：赔偿或和解会影响新公司和研究项目的资金安排，可能促使业界寻找替代数据或付费许可模式。

接下来可能发生什么

案件可能走向长期诉讼，也可能以和解收尾。无论结果如何，这类官司都会推动关于 AI 使用第三方内容界限的更清晰规则。对用户而言，短期内可能看不到明显变化，但对行业和出版生态的长期影响值得关注。

总结：大英百科和梅里亚姆-韦伯斯特的起诉把关于 AI 如何获取与使用信息的问题再度带回公众视野。未来法院的判断和行业的回应，将决定 AI 在处理受版权材料时要遵守哪些规则。

LM

关于 Lena Morales

Lena is a versatile writer who moves easily between breaking down Netflix hits, covering album drops, analyzing internet culture, and reporting on trending stories. She gravitates toward character work and emotional arcs, but she's comfortable covering almost any topic.