OpenAI nella bufera: uno studio accusa l’azienda di addestrare i suoi modelli su dati protetti da copyright

Al centro dell’inchiesta su OpenAI c’è GPT-4o, accusato di riconoscere e utilizzare contenuti protetti da copyright.

Apr 2, 2025 - 13:33

OpenAI nella bufera: uno studio accusa l’azienda di addestrare i suoi modelli su dati protetti da copyright

Un nuovo studio pubblicato dall’AI Disclosures Project solleva interrogativi cruciali sulla trasparenza e sull’eticità dei metodi di addestramento adottati da OpenAI. Al centro dell’inchiesta c’è GPT-4o, il più recente modello linguistico dell’azienda, accusato di riconoscere e utilizzare contenuti protetti da copyright, provenienti da materiale riservato dell’editore O’Reilly Media.

Una ricerca per aumentare la trasparenza nella corsa all’intelligenza artificiale

Lo studio è stato realizzato nell’ambito dell’AI Disclosures Project, un’iniziativa guidata dal tecnologo Tim O’Reilly e dall’economista Ilan Strauss. L’obiettivo del progetto è chiaro: promuovere una maggiore responsabilità nel settore dell’intelligenza artificiale, ponendo enfasi sulla necessità di pratiche trasparenti da parte delle aziende che sviluppano LLM (Large Language Models).

Il documento, un working paper, analizza come l’attuale mancanza di obblighi formali nella divulgazione dei dati usati per addestrare questi modelli possa creare seri problemi di fiducia e legalità. I ricercatori sostengono che, come nei mercati finanziari sono sorte regole di disclosure per favorire mercati robusti, anche nel campo dell’IA serve una regolamentazione simile per evitare abusi e danni sistemici.

OpenAI effettua test su contenuti coperti da copyright: i dati parlano chiaro

Per condurre la loro indagine, i ricercatori hanno utilizzato un dataset legalmente ottenuto di 34 libri protetti da copyright pubblicati da O’Reilly Media. Attraverso una tecnica nota come DE-COP membership inference attack, hanno misurato se i modelli linguistici fossero in grado di distinguere testi scritti da umani da versioni parafrasate generate da LLM. I risultati puntano il dito contro GPT-4o.

I punteggi AUROC (una metrica che misura la capacità di un modello di distinguere due classi) parlano chiaro:

GPT-4o ha ottenuto un punteggio dell’82% nella capacità di riconoscere contenuti non pubblici tratti da O’Reilly Media — un valore che indica una forte probabilità che quei contenuti siano stati inclusi nei dati di addestramento.
A titolo di confronto, il modello GPT-3.5 Turbo ha evidenziato un riconoscimento molto più debole (circa 50%), mentre GPT-4o Mini, una versione più leggera del modello, non ha riconosciuto né contenuti pubblici né non pubblici.
I dati mostrano inoltre che GPT-4o riconosce meglio materiali non accessibili pubblicamente (82% AUROC) rispetto a contenuti O’Reilly disponibili liberamente (64% AUROC).
Al contrario, GPT-3.5 Turbo mostra una maggiore familiarità con i contenuti pubblici (64%) rispetto a quelli riservati (54%).

Una possibile fonte di accesso ai contenuti coperti da copyright, suggeriscono i ricercatori, potrebbe essere LibGen, una nota piattaforma online che ospita copie digitali non autorizzate di libri protetti da diritto d’autore. Tutti i libri analizzati nello studio sono infatti presenti in quella libreria virtuale.

L’industria dell’AI tra legalità, economia e sostenibilità dei contenuti

I risultati sollevano una questione più ampia: l’impiego sistematico di dati protetti da copyright per addestrare i modelli linguistici potrebbe compromettere la sostenibilità economica dei professionisti che creano contenuti originali. Se le aziende non vengono compensate per l’uso delle loro pubblicazioni, l’intero ecosistema dell’informazione — editoria compresa — rischia di impoverirsi.

Secondo il report, l’uso non autorizzato di dati proprietari senza compensazione contribuisce alla riduzione della qualità e della diversità dei contenuti online. E non si tratta soltanto di una questione etica ma anche economica: senza entrate, le case editrici e i creatori professionali non possono continuare a produrre contenuti di valore.

La preoccupazione dei ricercatori: i modelli sanno più di quello che dichiarano

Un altro aspetto evidenziato dallo studio è il miglioramento della capacità dei modelli linguistici più recenti di comprendere e riprodurre le sottili differenze tra linguaggio umano e linguaggio generato da intelligenze artificiali. Inoltre, i ricercatori sottolineano la possibile presenza di un “bias temporale”, poiché le lingue evolvono nel tempo. Per neutralizzare questo tipo di distorsione, i test sono stati condotti su due modelli (GPT-4o e GPT-4o Mini) addestrati durante lo stesso periodo temporale.

Nonostante le prove siano limitate a un caso specifico — OpenAI e i testi O’Reilly — gli autori ritengono che il fenomeno possa essere diffuso e sistemico nel settore dell’intelligenza artificiale generativa.

Verso un mercato legale per i dati di addestramento?

Lo studio si conclude con una riflessione più ampia: è necessario costruire un sistema in cui gli sviluppatori di IA possano accedere legalmente a dati per l’addestramento, attraverso accordi di licenza e compensi trasparenti per i creatori di contenuti.

Alcune imprese stanno già sviluppando modelli di business in questa direzione. È il caso di Defined.ai, una piattaforma che vende dati per l’addestramento garantendo il consenso degli autori e rimuovendo tutte le informazioni personali identificabili. Un’industria regolamentata potrebbe rappresentare un’alternativa legale e sostenibile agli attuali comportamenti opachi di alcune grandi aziende dell’IA.

Il ruolo della politica: l’Europa può fare da apripista

Il rapporto offre anche uno spunto normativo: l’entrata in vigore del nuovo AI Act dell’Unione Europea, che prevede obblighi di disclosure per l’addestramento dei modelli, potrebbe innescare una spirale virtuosa. Se le regole saranno ben specificate e realmente applicate, i titolari di diritti potranno finalmente sapere quando e come le loro opere vengono utilizzate.

Si tratterebbe di un passo fondamentale per la creazione di mercati legali in cui i contenuti dei creatori vengano effettivamente riconosciuti come beni economici utilizzati dalle IA.

Non solo OpenAI: uno studio che punta il dito su una pratica sempre più frequente

Attraverso un’analisi dettagliata di 34 libri dell’editore O’Reilly Media, i ricercatori hanno fornito evidenze empiriche che suggeriscono come OpenAI abbia probabilmente addestrato il proprio modello GPT-4o anche su dati non pubblici e protetti da copyright.

Se confermato, si tratterebbe di una violazione potenzialmente grave non solo delle norme sul copyright, ma anche dei principi di trasparenza, consenso e equità che le grandi aziende tech dovrebbero rispettare in un’epoca in cui l’intelligenza artificiale incide sempre più profondamente sulla nostra società e sulla nostra economia.