La battaglia legale che circonda addestramento di modelli di intelligenza artificiale con opere protette da copyright Si è aperto un nuovo capitolo con Adobe al centro della tempesta. L'azienda, storicamente allineata al settore creativo, ora si trova ad affrontare una azione legale collettiva che fondamentalmente mette in discussione il modo in cui ha ottenuto alcuni dei dati utilizzati per addestrare una delle sue IA.
Il fulcro della causa è SlimLM, una famiglia di modelli linguistici leggeri progettati per attività di assistenza ai documenti, in particolare in cellulareNella denuncia si sostiene che per addestrare il sistema siano stati utilizzati i seguenti elementi: libri piratati e altre opere protette da copyright senza l'autorizzazione dei suoi autori, il che apre un fronte delicato non solo per Adobe, ma per l'intero settore dell'intelligenza artificiale generativa, anche in Europa e in Spagna, dove il dibattito sull'uso legittimo dei dati per l'intelligenza artificiale sta iniziando a scaldarsi.
Contesto dell'azione collettiva e origine del conflitto

El Dicembre 17 2025Adobe è stata informata di un azione collettiva proposta davanti a una corte federale nel distretto settentrionale della California. La causa, intentata dall'autore dell'Oregon Elisabetta Lioneaccusa l'azienda di aver approfittato versioni pirata dei libri —tra cui diverse sue opere— per alimentare il pre-addestramento dei suoi modelli di intelligenza artificiale.
La causa sostiene che Adobe ha utilizzato i suoi testi come parte di un sottoinsieme elaborato di dati che hanno costituito la base per SlimLM. Tale materiale avrebbe fatto parte di una catena di set di dati ben noti nell'ecosistema dell'IA: Libri3, incorporato in Pigiama rossoe a sua volta integrato nel set di dati SlimPajama-627B, utilizzato per pre-addestrare il modello Adobe. Secondo i querelanti, migliaia di opere protette da copyright sarebbero state utilizzate in questo processo senza autorizzazione, riconoscimento o compenso.
Lyon afferma di agire per conto di altri autori e titolari dei diritti che si troverebbero in una situazione simile, il che rende il caso un potenzialmente una class action di vasta portataSebbene non sia stata ancora resa pubblica una cifra specifica, la causa chiede un ingente risarcimento finanziario, danni legali e di altro tipo, nonché il pagamento delle spese legali e una dichiarazione esplicita di violazione intenzionale da parte di Adobe.
L'azienda, da parte sua, ha sostenuto che SlimLM è stato addestrato con SlimPajama-627B, descritto come un set di dati open source pubblicato dalla società Cerebras nel giugno 2023 e composto da dati presumibilmente provenienti da più corpora aperti e deduplicatiIl nocciolo dello scontro giuridico sta proprio nello stabilire se questo carattere "aperto" sia sufficiente a legittimare l'utilizzo di opere protette che sarebbero finite nel dataset senza il consenso dei loro autori.
Per ora, il processo è nelle sue fasi iniziali. Adobe ha evitato di entrare nei dettagli pubblicamente e organi di stampa come Reuters hanno notato che l'azienda non ha risposto ad alcune richieste di commento. Lyon, tuttavia, ha sottolineato che è determinato a portare avanti con fermezza la causa e che ha le risorse per portarla a termine, il che preannuncia una lunga e pubblicizzata battaglia legale.
Come SlimLM si inserisce nella strategia AI di Adobe

Uno degli elementi che rende questo caso particolarmente eclatante è che il modello in questione non è Lucciola, la suite di generazione creativa più visibile al grande pubblico di Adobe, ma SlimLMun sistema molto più discreto, orientato verso compiti di assistenza con documenti e funzioni di supporto in background. Non stiamo parlando di intelligenza artificiale che genera immagini spettacolari per campagne pubblicitarie, ma di modelli che aiutano a elaborare, riassumere o gestire il testo dietro le quinte delle applicazioni.
Finora, la narrativa di Adobe sull'intelligenza artificiale si è basata in gran parte su Firefly come esempio di “IA responsabile”, addestrati —secondo l'azienda stessa— con contenuto concesso in licenza (come Adobe Stock), materiale di pubblico dominio e altre risorse su cui rivendica chiari diritti. Inoltre, la società ha promosso programmi di compensazione per i collaboratori di Adobe Stock, con l'obiettivo di rafforzare la propria immagine di alleato di fotografi, illustratori e creatori di contenuti.
La causa, tuttavia, non si concentra su quel fronte altamente visibile. I riflettori sono puntati su SlimLM e origine dei dati utilizzati per la pre-formazioneprecisamente in un'area meno visibile all'utente finale. Questa differenza è importante perché dimostra che il dibattito sull'uso delle opere protette da copyright non si limita agli strumenti che generano immagini spettacolari o testi creativi, ma anche Riguarda anche i modelli di supporto più silenziosi.integrati nei prodotti di uso quotidiano.
Secondo la documentazione presentata, SlimLM sarebbe stato addestrato da SlimPajama-627B, una variante di un set di dati più ampio, Pigiama rosso, molto popolare nella comunità dell'IA. Questo, a sua volta, integra Libri3una raccolta di circa 191.000 libri che è stato ripetutamente citato in cause legali sul copyright. La causa sostiene che se SlimPajama deriva direttamente da RedPajama e RedPajama include Books3, allora Le opere di Lyon e di altri autori sarebbero state copiate ed elaborate durante la pre-formazione senza una chiara base giuridica.
Per Adobe, la questione arriva in un momento delicato, nel bel mezzo dell'espansione dei suoi servizi. Intelligenza artificiale generativa e strumenti assistiti Integrato nel suo ecosistema di prodotti creativi e per l'ufficio. L'immagine dell'azienda come protettrice dei creatori, che ha coltivato con cura per differenziarsi dagli altri giganti della tecnologia, è quindi sottoposta a un esame particolarmente attento, anche tra i professionisti creativi in Spagna e in Europa che utilizzano quotidianamente strumenti come Photoshop, Illustrator, Acrobat o Premiere.
Il ruolo dei dataset Books3, RedPajama e SlimPajama
Per capire perché questa richiesta vada ben oltre un caso isolato, vale la pena soffermarsi un attimo a considerare come vengono addestrati gli attuali modelli di intelligenza artificiale. I grandi modelli linguistici e molte IA generative apprendono da enormi quantità di testo.Pagine web, articoli, libri, codice, documentazione tecnica, ecc. Quanto più vario ed esteso è questo corpus, tanto migliori tendono a funzionare i modelli, a patto che l'elaborazione dei dati e la progettazione del sistema siano all'altezza.
In questo contesto, set di dati come Libri3, un'enorme collezione di libri la cui provenienza ha da tempo suscitato sospetti, e Pigiama rosso, un progetto che mira a riprodurre set di dati dello stile utilizzato dai grandi laboratori per addestrare i loro modelli. SlimPajama-627B Si tratterebbe di una variante deduplicata e raffinata di quel materiale, che Cerebras ha reso disponibile alla comunità come dataset aperto nel 2023.
Secondo la causa contro Adobe, SlimPajama sarebbe stato costruito “copiare e manipolare” RedPajama, inclusa la sezione Books3. Questa inclusione è ciò che, in teoria, porta migliaia di opere protette da copyright lungo l'intera filiera. L'accusa sostiene che, anche se Adobe non avesse compilato direttamente i libri contabili, il fatto che si sia basata su un set di dati che li incorpora costituisce comunque una frode. scaricare, copiare ed elaborare ripetutamente materiale protetto nella fase di pre-elaborazione e pre-addestramento.
La controversia non è nuova: entrambi Books3 come RedPajama Sono già stati citati in altre cause legali contro aziende tecnologiche, inclusi casi in cui aziende come Apple e Salesforce sono state accusate di fare affidamento su questi dati per addestrare i propri modelli interni. Alla base di tutte queste controversie c'è la stessa domanda: Si può considerare legittimo riutilizzare set di dati “aperti” che includono opere protette da copyright? senza aver preventivamente ottenuto il permesso da tutti gli autori coinvolti?
Il procedimento legale contro Adobe si aggiunge quindi a un un rivolo di contenzioso che sta spingendo il settore a rivedere le proprie pratiche. In pratica, ogni nuovo caso aggiunge pressione per creare meccanismi per tracciabilità dei datiSistemi di opt-out chiari per i creatori e modelli di licenza specifici per la formazione dell'IA, qualcosa che in Europa potrebbe anche essere influenzato dall' Regolamento UE sull'intelligenza artificiale e le normative vigenti in materia di diritto d'autore.
Un fronte legale che sta già influenzando l'intero settore dell'intelligenza artificiale
La causa contro Adobe non è un caso isolato. Dal 2023, c'è stata una Ondata di cause legali per violazione del copyright contro le aziende che sviluppano l'intelligenza artificiale generativaTra questi, nomi come OpenAI, Stability AI, Meta, Anthropic e Midjourney. Molti di questi casi ruotano attorno alla stessa idea: l'uso non autorizzato di opere protette da copyright per addestrare modelli in grado di generare testi, immagini o musica che, a volte, possono assomigliare molto allo stile degli autori originali.
Una delle pietre miliari recenti è stata la accordo raggiunto da Anthropic, che ha accettato di pagare circa 1.500 milioni Diversi autori hanno denunciato l'uso di versioni pirata dei loro libri per addestrare il chatbot Claude. Questo accordo ampiamente discusso è stato interpretato come una possibile punto di flesso nel modo in cui le aziende tecnologiche gestiscono questo tipo di reclami e hanno aperto la porta ad aspettative di ingenti risarcimenti in procedimenti futuri.
Nel frattempo, i media statunitensi come TechCrunch, Reuters, The Verge e The New York Times hanno documentato casi collegati Questi problemi riguardano quasi tutti i principali attori dell'intelligenza artificiale. Lo schema tende a ripetersi: enormi set di dati che includono di tutto, dalle pagine web ai repository di codice, e persino interi libri; mancanza di chiari meccanismi di consenso; e modelli sempre più potenti che sfruttano questo materiale per fornire risposte sofisticate, riassunti, analisi o generare contenuti creativi.
Il caso Adobe aggiunge una sfumatura rilevante: l’azienda aveva costruito parte della sua narrativa commerciale attorno all’idea di “differenziarsi” dal resto proteggere i creatori. Ecco perché il sospetto che uno dei suoi modelli possa essere basato su libri piratati tocca un nervo scoperto nel settore creativo, anche in paesi come la Spagna, dove scrittori, traduttori, giornalisti ed editori Osservano con una certa preoccupazione come i loro cataloghi possano finire, direttamente o indirettamente, nei set di dati di addestramento.
Oltre agli Stati Uniti, anche in Europa le decisioni dei tribunali in materia saranno attentamente monitorate. Giurisprudenza statunitense sul fair use E la copia a fini trasformativi non è esattamente in linea con il quadro normativo europeo, che tutela maggiormente i titolari dei diritti. Ciononostante, le sentenze in arrivo potrebbero influenzare il modo in cui i giudici europei interpretano questioni come l'uso massiccio dei dati a fini formativi o la necessità di un compenso specifico per gli autori.
Potenziale impatto in Europa e per i creatori in Spagna
Sebbene la causa contro Adobe sia stata intentata presso un tribunale statunitense, le sue implicazioni potrebbero farsi sentire su entrambe le sponde dell'Atlantico. Le grandi aziende tecnologiche operano con modelli globali e il loro modo di gestire i dati è raramente limitato a una singola giurisdizione. Se i tribunali statunitensi dovessero infine stabilire che l'uso di determinati set di dati viola il copyright, è probabile che gli stessi modelli o pratiche dovrebbero essere rivisti anche in Europa.
Nel caso specifico di Adobe, molti dei suoi strumenti basati sull'intelligenza artificiale sono già ampiamente utilizzati in Studi di design spagnoli, agenzie pubblicitarie, editori e organi di stampaLa possibile presenza di opere letterarie spagnole all'interno di dataset come Books3, senza autorizzazione, è motivo di crescente preoccupazione per autori e gruppi professionali. Se venisse confermato che libri registrati in Spagna sono stati utilizzati per addestrare modelli, potrebbero sorgere nuovi problemi. canali di reclamo individuali o collettivi anche nelle giurisdizioni europee.
El Regolamento dell'Unione Europea sull'intelligenza artificiale, che introduce obblighi di trasparenza per determinati sistemi, nonché normative comunitarie in materia copyrightQuesti fattori saranno fondamentali per definire quali pratiche siano accettabili. Ad esempio, l'obbligo di documentare i set di dati utilizzati o di offrire chiari meccanismi di opt-out ai titolari dei diritti potrebbe essere inasprito se casi come quello di Adobe diventassero più comuni.
Per l’ecosistema creativo europeo, questo tipo di contenzioso rafforza la percezione che sia necessario negoziare nuove forme di congedo e retribuzione correlato alla formazione sull'intelligenza artificiale. Non si tratta solo di prevenire usi non autorizzati, ma di esplorare modi in cui editori, agenzie di gestione dei diritti e piattaforme tecnologiche possono concordare le condizioni di accesso ai cataloghi opere letterarie o visive in cambio di un equo compenso.
Dal punto di vista dell’innovazione, la sfida sarà conciliare lo sviluppo di modelli potenti con il genuino rispetto della proprietà intellettualeIn Spagna, dove l'editoria e i settori audiovisivo e pubblicitario hanno un peso considerevole, l'esito della causa contro Adobe sarà seguito con molta attenzione, sia dalle aziende che già utilizzano l'intelligenza artificiale, sia dagli studi legali specializzati in diritto digitale e proprietà intellettuale.
Lezioni per startup e aziende tecnologiche che utilizzano l'intelligenza artificiale
Il caso Adobe invia un messaggio diretto a ecosistema di startup tecnologicheSia in America che in Europa, l'origine dei dati è importante, e molto. Sebbene molte giovani aziende non sviluppino autonomamente modelli linguistici di grandi dimensioni, spesso si affidano a... set di dati aperti, API di terze parti e modelli pre-addestrati che potrebbero inconsapevolmente avere gli stessi problemi legali di cui ora si discute nei tribunali.
La prima lezione è la necessità di verificare rigorosamente le fonti dei datiEtichettare semplicemente un set di dati come "aperto" o renderlo disponibile in un repository pubblico non garantisce automaticamente la sua protezione dal copyright. Consultate la documentazione, identificate eventuali componenti protetti da copyright e, in caso di dubbio, cercare alternative più pulite o negoziare licenze specifiche In questo modo si possono prevenire gravi problemi in seguito.
Il secondo ha a che fare con conformità normativa internazionaleLe startup che operano in Spagna o in America Latina, ma che aspirano a raggiungere utenti in Europa o negli Stati Uniti, devono tenere presente che potrebbero essere soggette a più giurisdizioni contemporaneamenteCiò richiede di elaborare fin dall'inizio delle politiche chiare in merito alla raccolta, all'archiviazione, al consenso e alla risposta alle richieste di rimozione o alle rivendicazioni di copyright dei dati.
In terzo luogo, apre un terreno fertile per nuovi modelli di business focalizzato sulla gestione responsabile dei dati. Strumenti di tracciabilità per set di dati, servizi di verifica delle autorizzazioni, piattaforme che facilitano la concessione di licenze per cataloghi culturali o soluzioni che consentono ai titolari dei diritti di monitorare l'uso delle loro opere nei sistemi di intelligenza artificiale possono diventare prodotti di grande valore nei prossimi anni.
Infine, vale la pena ricordare che il reputazione È diventata una risorsa importante quanto la tecnologia stessa. Per qualsiasi azienda che sviluppa o integra l'intelligenza artificiale, trovarsi coinvolta in un conflitto sull'uso improprio di contenuti protetti da copyright può per generare sfiducia tra clienti, partner e utentiCostruire una cultura di rispetto per la proprietà intellettuale non è solo una questione legale, ma anche un modo intelligente per differenziarsi in un mercato sempre più saturo di promesse di “IA etica” o “IA responsabile”.
Possibili scenari e cosa potrebbe succedere dopo
Come accade spesso in cause legali di questo tipo, anche il caso contro Adobe apre una serie di possibilità. scenari legaliIl tribunale potrebbe decidere di ammettere pienamente l'azione collettiva, limitarne la portata, respingerla se ritiene che non vi siano motivi sufficienti, oppure, come è accaduto in altri procedimenti, la controversia potrebbe essere risolta tramite un transazione extragiudiziale che include una compensazione finanziaria e l'impegno a modificare le pratiche da parte dell'azienda.
Per Adobe, al di là del costo economico, l’impatto maggiore potrebbe risiedere nella necessità di rivedere attentamente le loro catene di fornitura dei datiCiò implicherebbe la verifica dei set di dati utilizzati in ciascun modello, della parte di formazione basata su dati proprietari, delle licenze che coprono tali utilizzi e di come comunicare tutto ciò in modo trasparente ai clienti e alle autorità di regolamentazione.
L'industria tecnologica, in generale, si trova a un bivio. Con l'aumento delle cause legali per violazione del copyright e l'inasprimento delle normative, soprattutto nell'Unione Europea, sembra sempre meno fattibile basare lo sviluppo dell'intelligenza artificiale su enormi raccolte di dati da Internet e dubbie raccolte di libri o immaginiInvece, l'idea di modelli addestrati con dati curati, con autorizzazioni chiare e, in molti casi, accompagnati da accordi di compensazione.
In questo panorama in continua evoluzione, il caso Adobe funge da modello sia per le grandi aziende tecnologiche che per le piccole imprese che cercano di sfruttare l'intelligenza artificiale senza incorrere in insidie legali. La decisione del tribunale su questo tema sarà cruciale. la class action sul copyright e la formazione sull'intelligenza artificiale Non interesserà solo un modello specifico come SlimLM, ma potrebbe ridefinire il modo in cui viene concepito l'accesso ai dati creativi nell'era dell'intelligenza artificiale.