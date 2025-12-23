Gemini 3 Flash tende spesso a inventare risposte pur di non ammettere lacune nelle proprie conoscenze.

Il problema emerge soprattutto con quesiti fattuali o in scenari ad alto rischio, dove la precisione è fondamentale.

Nonostante ciò, i test lo confermano come il modello IA più accurato e performante attualmente disponibile.

Gemini 3 Flash è veloce e intelligente. Tuttavia, se gli si pone una domanda su argomenti di cui non è a conoscenza – qualcosa di oscuro, complesso o semplicemente al di fuori del suo addestramento – tenderà quasi sempre a bluffare, secondo una recente valutazione del gruppo di test indipendente Artificial Analysis.

Sembra che Gemini 3 Flash abbia raggiunto il 91% nella sezione relativa al "tasso di allucinazione" del benchmark AA-Omniscience. Ciò significa che, quando non conosceva la risposta, ne ha comunque fornita una quasi la totalità delle volte, generandone una completamente fittizia.

Il problema dei chatbot IA che inventano informazioni è noto fin dal loro debutto. Sapere quando fermarsi e ammettere di non conoscere la risposta è importante quanto saper rispondere correttamente. Al momento, l'intelligenza artificiale Google Gemini 3 Flash non lo fa molto bene. Il test serve proprio a questo: verificare se un modello sia in grado di distinguere la conoscenza reale da una supposizione.

Affinché i numeri non distolgano dalla realtà, va sottolineato che l'alto tasso di allucinazione di Gemini non significa che il 91% delle sue risposte totali sia falso. Indica invece che, nelle situazioni in cui la risposta corretta sarebbe stata "non lo so", il modello ha fabbricato una risposta nel 91% dei casi. Si tratta di una distinzione sottile ma fondamentale, con implicazioni concrete, specialmente ora che Gemini viene integrato in sempre più prodotti, come la Ricerca Google.

Ok, it's not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025

Questi risultati non intaccano la potenza e l'utilità di Gemini 3. Il modello resta infatti il più performante nei test di carattere generale, posizionandosi allo stesso livello – o addirittura al di sopra – delle ultime versioni di ChatGPT e Claude. Semplicemente, tende a peccare di eccessiva sicurezza quando dovrebbe invece mostrare maggiore prudenza.

L'eccesso di spavalderia nel rispondere è un tratto che accomuna anche i rivali di Gemini. Ciò che rende eclatante il dato di Google è la frequenza con cui il fenomeno si verifica in scenari di incertezza, ovvero quando i dati di addestramento non contengono la risposta corretta o manca una fonte pubblica definitiva a cui fare riferimento.

Sincerità sulle allucinazioni

Parte del problema risiede nel fatto che i modelli di IA generativa sono essenzialmente strumenti di predizione testuale, e prevedere la parola successiva non equivale a valutare la verità. Di conseguenza, il comportamento predefinito è generare nuovi termini, anche quando ammettere un "non lo so" sarebbe più onesto.

OpenAI ha iniziato ad affrontare la questione, spingendo i propri modelli a riconoscere le proprie lacune e a dichiararle apertamente. È un obiettivo difficile da raggiungere in fase di addestramento, poiché i modelli di ricompensa tipicamente non prediligono una risposta vuota rispetto a una sicura (ma errata). Ciononostante, OpenAI ne ha fatto un traguardo prioritario per lo sviluppo dei futuri modelli.

Dal canto suo, Gemini solitamente cita le fonti quando possibile, ma anche in questi casi non sempre si ferma quando dovrebbe. Questo aspetto passerebbe inosservato se Gemini fosse solo un prototipo di ricerca; tuttavia, poiché sta diventando la voce trainante di molte funzioni di Google, essere "sicuri di sé pur sbagliando" potrebbe avere un impatto considerevole.

C'è poi una questione di design: molti utenti si aspettano che il proprio assistente IA risponda in modo rapido e fluido. Frasi come "non ne sono sicuro" o "lasciami controllare" potrebbero risultare macchinose in una chat, ma restano preferibili al rischio di essere tratti in inganno. L'IA generativa non è ancora del tutto affidabile, quindi verificare sempre ogni risposta resta un'ottima abitudine.