Vendredi, Encyclopaedia Britannica et l’éditeur de dictionnaires Merriam-Webster ont engagé une action en justice contre OpenAI. Les plaignants affirment que l’entreprise a utilisé leurs contenus protégés par le droit d’auteur pour entraîner ses modèles d’IA, puis a produit des réponses qui ressemblent de très près à leurs textes originaux.

Les accusations principales

Britannica soutient qu’OpenAI a copié son contenu à plusieurs reprises sans autorisation. Selon la plainte, GPT-4 aurait « mémorisé » une grande partie du contenu de Britannica et serait capable de fournir, sur demande, des passages quasi mot pour mot. Ces extraits mémorisés seraient des copies non autorisées utilisées pendant l’entraînement des modèles.

Des exemples côte à côte

La plainte contient des exemples montrant des réponses générées par les modèles d’OpenAI placées à côté des textes de Britannica. Les plaignants affirment que certains passages correspondent pratiquement mot pour mot, ce qui étaye leur allégation de reproduction non autorisée.

Un impact sur le trafic

Britannica affirme aussi qu’OpenAI « cannibalise » son trafic web en fournissant des réponses qui remplacent ou concurrencent directement les pages de Britannica, au lieu de diriger les utilisateurs vers le site, comme le ferait un moteur de recherche traditionnel.

Le contexte plus large

Cette plainte s’ajoute à une série de procès déposés par des éditeurs et des médias contre des entreprises d’IA. Le New York Times a porté des allégations similaires contre OpenAI, reprochant aussi l’utilisation massive de contenus protégés. De son côté, Anthropic a déjà réglé une action collective concernant l’utilisation d’ouvrages protégés, aboutissant à un paiement de 1,5 milliard de dollars aux auteurs concernés.

Pourquoi cela compte

Le dossier met en lumière deux questions clés pour l’avenir des services d’IA : la façon dont les modèles sont entraînés sur des contenus protégés, et la manière dont ces modèles redistribuent l’information en concurrence avec les sources originales. Les juges et les tribunaux vont maintenant devoir trancher sur la frontière entre entraînement technique et copie illicite.

Pour l’instant, l’affaire vient s’ajouter à un paysage juridique déjà chargé, et elle pourrait influencer la façon dont les entreprises d’IA traitent les contenus sous droits d’auteur à l’avenir.