Gli hacker cambiano tattica: ora bastano 250 file falsi per sabotare il cervello digitale di ChatGPT

Rita Rossi

Novembre 4, 2025

Un ricercatore che analizza i dati di addestramento si accorge di qualcosa di sottile: poche centinaia di file alterati bastano a spostare le risposte di un’intelligenza artificiale lontano dalla realtà. È una scoperta che cambia il modo in cui guardiamo alle grandi collezioni di testi e immagini usate per costruire i modelli linguistici: non servono attacchi massivi, ma inserimenti mirati e praticamente invisibili. Questo fenomeno ha un nome tecnico e una portata pratica: si parla di poisoning, la contaminazione dei dati che forma il comportamento delle macchine.

Come si infiltra un sabotaggio

In fase di addestramento, i modelli apprendono dai corpus di testo e dalle immagini raccolte in rete. Se qualcuno riesce a inserire contenuti manipolati, anche in quantità limitate, può alterare la memoria di quell’IA. Gli esperti distinguono tra data poisoning, quando si agisce sui dati prima che il modello sia formato, e model poisoning, quando l’attacco riguarda un modello già addestrato. Entrambi i casi portano a una modifica delle risposte, spesso senza segnali evidenti per l’utente.

Una tecnica nota è la creazione di una backdoor: durante l’apprendimento si inseriscono esempi apparentemente innocui contenenti una parola rara o una sequenza di simboli che funzionano come un comando nascosto. In presenza di quel codice, il sistema può fornire risposte aberranti o false. Un’altra strategia è il topic steering, l’inquinamento del dataset con grandi quantità di contenuti faziosi su uno specifico argomento, così da far percepire come attendibili affermazioni infondate. Secondo uno studio congiunto condotto da istituti di ricerca britannici e da realtà del settore, possono bastare 250 file manipolati per compromettere un modello su milioni di documenti.

Un dettaglio che molti sottovalutano è la durata di questi attacchi: possono rimanere latenti e attivarsi soltanto al manifestarsi di una parola o di un pattern. Lo raccontano tecnici e ricercatori che lavorano sulla sicurezza dei dati: la pericolosità non sta solo nel volume, ma nella precisione dell’inserimento.

Impatto e contromisure pratiche

Le conseguenze del poisoning vanno oltre le risposte sbagliate. Un modello compromesso può veicolare disinformazione, amplificare pregiudizi o generare contenuti manipolati su larga scala. Nel campo della salute, ad esempio, una contaminazione mirata può rendere l’IA più incline a diffondere affermazioni pericolose; lo studio citato rileva che alterare appena lo 0,001% delle parole di un dataset può influenzare sensibilmente il comportamento del sistema. È un rischio che riguarda la fiducia nell’IA nella vita quotidiana e nei servizi pubblici.

Per ridurre l’esposizione sono state proposte diverse contromisure: controlli di provenienza dei dati, procedure di auditing sui corpus, tecniche di addestramento robuste e sistemi di monitoraggio che rilevino deviazioni nella generazione delle risposte. Alcune soluzioni tecniche prevedono anche l’uso di filtri statistici per individuare pattern anomali o la firma digitale dei dataset per garantire integrità. Un altro approccio è l’inclusione costante di verifiche umane nel ciclo di sviluppo, per intercettare segnali che gli algoritmi non riconoscono.

Un fenomeno che in molti notano solo in questi mesi è l’uso del poisoning come strumento di autodifesa: artisti e creatori mettono online immagini leggermente alterate in modo da rendere inutilizzabili i materiali raccolti dai modelli che li “rubano”. È una forma di difesa che sottolinea una verità più ampia: la potenza dei sistemi si basa ancora su vulnerabilità di processo e dati. Per questo, nella progettazione di servizi IA in Italia e in Europa, la sicurezza dei dataset e la trasparenza sulla loro origine sono ormai elementi imprescindibili.