Gemini 3 Flash è intelligente, ma quando non sa le cose inventa (allucinazioni)

Gemini 3 Flash
(Immagine:: Google)

  • Gemini 3 Flash tende spesso a inventare risposte pur di non ammettere lacune nelle proprie conoscenze.
  • Il problema emerge soprattutto con quesiti fattuali o in scenari ad alto rischio, dove la precisione è fondamentale.
  • Nonostante ciò, i test lo confermano come il modello IA più accurato e performante attualmente disponibile.

Gemini 3 Flash è veloce e intelligente. Tuttavia, se gli si pone una domanda su argomenti di cui non è a conoscenza – qualcosa di oscuro, complesso o semplicemente al di fuori del suo addestramento – tenderà quasi sempre a bluffare, secondo una recente valutazione del gruppo di test indipendente Artificial Analysis.

Sembra che Gemini 3 Flash abbia raggiunto il 91% nella sezione relativa al "tasso di allucinazione" del benchmark AA-Omniscience. Ciò significa che, quando non conosceva la risposta, ne ha comunque fornita una quasi la totalità delle volte, generandone una completamente fittizia.

Il problema dei chatbot IA che inventano informazioni è noto fin dal loro debutto. Sapere quando fermarsi e ammettere di non conoscere la risposta è importante quanto saper rispondere correttamente. Al momento, l'intelligenza artificiale Google Gemini 3 Flash non lo fa molto bene. Il test serve proprio a questo: verificare se un modello sia in grado di distinguere la conoscenza reale da una supposizione.

Affinché i numeri non distolgano dalla realtà, va sottolineato che l'alto tasso di allucinazione di Gemini non significa che il 91% delle sue risposte totali sia falso. Indica invece che, nelle situazioni in cui la risposta corretta sarebbe stata "non lo so", il modello ha fabbricato una risposta nel 91% dei casi. Si tratta di una distinzione sottile ma fondamentale, con implicazioni concrete, specialmente ora che Gemini viene integrato in sempre più prodotti, come la Ricerca Google.

Questi risultati non intaccano la potenza e l'utilità di Gemini 3. Il modello resta infatti il più performante nei test di carattere generale, posizionandosi allo stesso livello – o addirittura al di sopra – delle ultime versioni di ChatGPT e Claude. Semplicemente, tende a peccare di eccessiva sicurezza quando dovrebbe invece mostrare maggiore prudenza.

L'eccesso di spavalderia nel rispondere è un tratto che accomuna anche i rivali di Gemini. Ciò che rende eclatante il dato di Google è la frequenza con cui il fenomeno si verifica in scenari di incertezza, ovvero quando i dati di addestramento non contengono la risposta corretta o manca una fonte pubblica definitiva a cui fare riferimento. Se cercate affidabilità per le vostre sessioni di lavoro, vi consigliamo di consultare la nostra selezione dei migliori portatili professionali.

Sincerità sulle allucinazioni

Parte del problema risiede nel fatto che i modelli di IA generativa sono essenzialmente strumenti di predizione testuale, e prevedere la parola successiva non equivale a valutare la verità. Di conseguenza, il comportamento predefinito è generare nuovi termini, anche quando ammettere un "non lo so" sarebbe più onesto.

OpenAI ha iniziato ad affrontare la questione, spingendo i propri modelli a riconoscere le proprie lacune e a dichiararle apertamente. È un obiettivo difficile da raggiungere in fase di addestramento, poiché i modelli di ricompensa tipicamente non prediligono una risposta vuota rispetto a una sicura (ma errata). Ciononostante, OpenAI ne ha fatto un traguardo prioritario per lo sviluppo dei futuri modelli.

Dal canto suo, Gemini solitamente cita le fonti quando possibile, ma anche in questi casi non sempre si ferma quando dovrebbe. Questo aspetto passerebbe inosservato se Gemini fosse solo un prototipo di ricerca; tuttavia, poiché sta diventando la voce trainante di molte funzioni di Google, essere "sicuri di sé pur sbagliando" potrebbe avere un impatto considerevole.

C'è poi una questione di design: molti utenti si aspettano che il proprio assistente IA risponda in modo rapido e fluido. Frasi come "non ne sono sicuro" o "lasciami controllare" potrebbero risultare macchinose in una chat, ma restano preferibili al rischio di essere tratti in inganno. L'IA generativa non è ancora del tutto affidabile, quindi verificare sempre ogni risposta resta un'ottima abitudine.

TOPICS
Eric Hal Schwartz
Contributor

Eric Hal Schwartz is a freelance writer for TechRadar with more than 15 years of experience covering the intersection of the world and technology. For the last five years, he served as head writer for Voicebot.ai and was on the leading edge of reporting on generative AI and large language models. He's since become an expert on the products of generative AI models, such as OpenAI’s ChatGPT, Anthropic’s Claude, Google Gemini, and every other synthetic media tool. His experience runs the gamut of media, including print, digital, broadcast, and live events. Now, he's continuing to tell the stories people want and need to hear about the rapidly evolving AI space and its impact on their lives. Eric is based in New York City.