Encyclopedia Britannica e l'editore dei dizionari Merriam-Webster hanno avviato una causa contro OpenAI, sostenendo che la società ha usato i loro contenuti protetti da copyright per addestrare i suoi modelli e che ChatGPT restituisce risposte molto simili ai testi originali.

Cosa sostiene la causa

I querelanti affermano che OpenAI ha copiato ripetutamente materiale senza permesso. Nel documento legale si legge che "GPT-4 ha 'memorizzato' gran parte dei contenuti coperti da copyright di Britannica e può restituire copie quasi testuali di porzioni significative su richiesta". Secondo Britannica, queste risposte sono copie non autorizzate generate a partire da materiali usati per l'addestramento.

Esempi citati

Nella denuncia sono inclusi confronti affiancati: risposte generate dai modelli di OpenAI confrontate con i testi di Britannica, con passaggi che appaiono corrispondere parola per parola. I querelanti portano questi esempi per mostrare il presunto uso diretto dei loro contenuti.

Il problema del traffico e della visibilità

Britannica sostiene inoltre che OpenAI stia in pratica cannibalizzando il suo traffico web. Invece di indirizzare gli utenti al sito della enciclopedia, i modelli forniscono risposte che sostituiscono o competono direttamente con i contenuti originali, riducendo le visite e il valore che gli editori ottengono dalla loro pubblicazione online.

Non è un caso isolato

Questa azione legale arriva in un contesto già affollato di dispute tra editori e aziende AI. Negli ultimi anni altri importanti editori hanno portato avanti reclami simili. Ad esempio, il New York Times ha fatto cause con accuse di copia di grandi quantità di contenuti. In un caso diverso, la società Anthropic ha raggiunto un accordo che ha comportato un risarcimento di 1,5 miliardi di dollari agli autori i cui libri erano stati usati per l'addestramento.

Cosa può cambiare

  • Se i tribunali daranno ragione agli editori, le aziende AI potrebbero dover pagare danni o stipulare accordi per l'uso dei contenuti protetti.
  • Potrebbero emergere regole più chiare su come si può usare materiale con copyright per l'addestramento dei modelli.
  • Gli editori potrebbero cercare modi per proteggere meglio i propri contenuti o negoziare licenze con le società che sviluppano AI.

La vicenda è sotto gli occhi di molti osservatori del settore tecnologico e legale. Per ora la causa è stata depositata e resta da vedere come i tribunali interpreteranno il confine tra addestramento dei modelli e violazione del copyright.