Le allucinazioni dell’IA aumentano nonostante gli aggiornamenti

Maggio 15, 2025 - 14:30

Le allucinazioni dell’IA aumentano nonostante gli aggiornamenti

Cos’è davvero un’allucinazione nei modelli linguistici

Il termine “allucinazione” in ambito di intelligenza artificiale generativa indica un errore in cui un modello, come ChatGPT di OpenAI o Gemini di Google, fornisce un’informazione falsa come se fosse vera. Questo tipo di errore può assumere diverse forme: una risposta può sembrare corretta ma non pertinente, oppure seguire un ragionamento illogico o non attenersi alle istruzioni ricevute.

L’espressione, mutuata dal linguaggio clinico, è oggi contestata da diversi esperti, come Emily Bender dell’Università di Washington, per due motivi. Primo, trasmette l’illusione che tali errori siano rari e gestibili. Secondo, antropomorfizza la macchina, suggerendo una percezione soggettiva che i modelli non possiedono.

I nuovi modelli OpenAI peggiorano nel mantenere l’accuratezza

Secondo un rapporto tecnico recente, OpenAI ha rilevato che i suoi modelli più nuovi – o3 e o4-mini, pubblicati nell’Aprile 2025 – hanno tassi di allucinazione sensibilmente superiori rispetto al modello o1, rilasciato alla fine del 2024. Nel compito di riassumere informazioni pubbliche su individui, o3 ha allucinato nel 33% dei casi, mentre o4-mini ha toccato il 48%. In confronto, il vecchio o1 si fermava al 16%.

Questo dato ribalta la narrativa proposta finora dalle aziende di IA, che promettevano miglioramenti progressivi. L’idea che più potenza computazionale e più dati garantiscano una migliore affidabilità si sta dimostrando non sempre fondata.

Anche Google e DeepSeek non sono immuni

Il problema non riguarda solo OpenAI. Una classifica indipendente stilata da Vectara, che valuta i tassi di allucinazione nei modelli, ha evidenziato che anche i modelli cosiddetti “di ragionamento”, come DeepSeek-R1, sono peggiorati. Il modello DeepSeek-R1, ad esempio, ha registrato un tasso del 14,3%, ma il team ha sottolineato che molte di queste erano “benigne”, ovvero logicamente plausibili ma non realmente presenti nel testo fornito.

Ragionamento o no, le allucinazioni restano

OpenAI nega che il problema sia dovuto ai modelli di ragionamento: secondo l’azienda, il processo stesso di deduzione logica non porta necessariamente a un aumento degli errori. Tuttavia, i dati raccolti e i test indipendenti mostrano che i modelli recenti, anche quelli ottimizzati per ragionare, producono contenuti meno affidabili di quanto ci si aspettasse.

Forrest Sheng Bao di Vectara ha affermato che, nei loro test, i tassi di allucinazione nei modelli di ragionamento e non erano “quasi identici”, almeno per quanto riguarda OpenAI e Google. Questo mette in discussione l’efficacia dell’approccio ragionativo come soluzione strutturale agli errori.

Limiti strutturali dei LLM e il problema della verifica

I modelli linguistici di grandi dimensioni non elaborano realmente informazioni, ma si limitano a predire la parola successiva più probabile. Questa struttura, come sottolinea Bender, non consente una reale comprensione del contesto o delle fonti.

Inoltre, molte applicazioni reali rischiano di essere compromesse: un bot legale che cita casi inesistenti, un assistente clienti che riporta politiche obsolete, o un sistema di ricerca che richiede verifiche continue perdono rapidamente la loro utilità.

Verso un’accettazione degli errori?

Secondo Arvind Narayanan dell’Università di Princeton, dobbiamo iniziare a convivere con l’idea che l’IA sarà sempre soggetta a errori. Aggiungere più dati o più potenza di calcolo non garantisce un miglioramento lineare. Forse la strada migliore, per alcuni casi d’uso, è utilizzare l’IA solo quando la verifica delle sue risposte è più veloce che condurre ricerche manuali. Ma per i compiti che richiedono precisione assoluta, affidarsi ai chatbot potrebbe non essere mai una soluzione adeguata.

Le allucinazioni dell’IA aumentano nonostante gli aggiornamenti