Gemini 3 Flash är smart – men när den inte vet, hittar den ändå på svar
Googles senaste AI-modell bluffar hellre än erkänner osäkerhet.
- Gemini 3 Flash hittar ofta på svar i stället för att säga ”jag vet inte”
- Problemet uppstår vid faktabaserade frågor eller avancerade frågor
- Trots det testas modellen fortfarande som den mest exakta och kapabla AI:n
Gemini 3 Flash är snabb och smart. Men om vi frågar den om något den faktiskt inte vet – något knepigt eller helt enkelt utanför dess träningsdata – försöker den nästan alltid bluffa sig igenom svaret, enligt en färsk utvärdering från den oberoende testgruppen Artificial Analysis.
Det visar sig att Gemini 3 Flash nådde 91 procent på ”hallucinationsgraden” i AA-Omniscience-benchmarktestet. Det innebär att när modellen inte hade svaret, gav den ändå ett – nästan varje gång – och svaret var då helt påhittat.
Att AI-chattbotar hittar på saker har varit ett problem ända sedan de först lanserades. Att veta när man ska stanna upp och säga ”jag vet inte” är minst lika viktigt som att veta hur man svarar korrekt från början. I dagsläget är det något som Google Gemini 3 Flash inte är särskilt bra på. Det är också precis det som testet mäter: om en modell kan skilja mellan faktisk kunskap och en gissning.
För att siffran inte ska missförstås är det viktigt att påpeka att Geminis höga hallucinationsgrad inte betyder att 91 procent av alla svar är felaktiga. Det betyder i stället att i de situationer där det korrekta svaret hade varit ”jag vet inte”, så fabricerade modellen ett svar i 91 procent av fallen. Det är en subtil men viktig skillnad, och en som får verkliga konsekvenser, särskilt när Gemini integreras i allt fler produkter som Google Sök.
Ok, it's not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025
Resultatet minskar dock inte kraften eller nyttan i Gemini 3. Modellen är fortfarande den högst presterande i generella tester och placerar sig i nivå med, eller till och med före, de senaste versionerna av ChatGPT och Claude. Den tenderar bara att vara överdrivet självsäker i situationer där den borde vara mer återhållsam.
Den här övertron i svaren förekommer även hos Geminis konkurrenter. Det som gör Geminis resultat anmärkningsvärt är hur ofta det sker just i osäkra scenarier, där det helt enkelt inte finns något korrekt svar i träningsdatan eller någon tydlig offentlig källa att luta sig mot.
Hallucinationer och ärlighet
En del av problemet är att generativa AI-modeller i grunden är verktyg för ordprediktion. Att förutsäga nästa ord är inte samma sak som att värdera sanningshalt. Det innebär att standardbeteendet blir att generera ett nytt ord, även när det hade varit ärligare att säga ”jag vet inte”.
Registrera dig för senaste nyheter, recensioner, åsikter, toppteknologiska erbjudanden och mer.
OpenAI har börjat ta itu med detta och arbetar med att få sina modeller att tydligare känna igen vad de inte vet och faktiskt säga det. Det är svårt att träna, eftersom belöningsmodeller sällan väljer ett tomt eller osäkert svar framför ett självsäkert, men felaktigt, sådant. Ändå har OpenAI gjort detta till ett uttalat mål för framtida modeller.
Gemini hänvisar dessutom ofta till källor när det är möjligt. Men även då pausar den inte alltid när den borde. Det hade varit mindre problematiskt om Gemini bara var en forskningsmodell, men i takt med att Gemini blir rösten bakom allt fler Google-funktioner kan självsäkra felaktigheter få stor påverkan.
Det finns också ett designval i detta. Många användare förväntar sig att en AI-assistent ska svara snabbt och smidigt. Att säga ”jag är inte säker” eller ”låt mig kolla upp det” kan kännas klumpigt i ett chattgränssnitt. Men det är förmodligen bättre än att bli vilseledd. Generativ AI är fortfarande inte alltid pålitlig, så det är fortfarande en bra idé att dubbelkolla svaren man får.
Läs vidare:

Amanda Westberg har varit en del av TechRadar-projektet sedan starten 2018 och sitter nu på rollen som chefsredaktör för TechRadar i Norden. Under sin tid på hemsidan har hon hunnit skriva tusentals artiklar och håller noggrann koll på teknikvärlden och dess trender. Som en gamer och träningsentusiast har hon en förkärlek för allt gaming- och fitnessrelaterat, där bland annat smartklockor är en favoritkategori att skriva om.
- Eric Hal SchwartzContributor