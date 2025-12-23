Gemini 3 Flash hittar ofta på svar i stället för att säga ”jag vet inte”

Problemet uppstår vid faktabaserade frågor eller avancerade frågor

Trots det testas modellen fortfarande som den mest exakta och kapabla AI:n

Gemini 3 Flash är snabb och smart. Men om vi frågar den om något den faktiskt inte vet – något knepigt eller helt enkelt utanför dess träningsdata – försöker den nästan alltid bluffa sig igenom svaret, enligt en färsk utvärdering från den oberoende testgruppen Artificial Analysis.

Det visar sig att Gemini 3 Flash nådde 91 procent på ”hallucinationsgraden” i AA-Omniscience-benchmarktestet. Det innebär att när modellen inte hade svaret, gav den ändå ett – nästan varje gång – och svaret var då helt påhittat.

Att AI-chattbotar hittar på saker har varit ett problem ända sedan de först lanserades. Att veta när man ska stanna upp och säga ”jag vet inte” är minst lika viktigt som att veta hur man svarar korrekt från början. I dagsläget är det något som Google Gemini 3 Flash inte är särskilt bra på. Det är också precis det som testet mäter: om en modell kan skilja mellan faktisk kunskap och en gissning.

För att siffran inte ska missförstås är det viktigt att påpeka att Geminis höga hallucinationsgrad inte betyder att 91 procent av alla svar är felaktiga. Det betyder i stället att i de situationer där det korrekta svaret hade varit ”jag vet inte”, så fabricerade modellen ett svar i 91 procent av fallen. Det är en subtil men viktig skillnad, och en som får verkliga konsekvenser, särskilt när Gemini integreras i allt fler produkter som Google Sök.

Ok, it's not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025

Resultatet minskar dock inte kraften eller nyttan i Gemini 3. Modellen är fortfarande den högst presterande i generella tester och placerar sig i nivå med, eller till och med före, de senaste versionerna av ChatGPT och Claude. Den tenderar bara att vara överdrivet självsäker i situationer där den borde vara mer återhållsam.

Den här övertron i svaren förekommer även hos Geminis konkurrenter. Det som gör Geminis resultat anmärkningsvärt är hur ofta det sker just i osäkra scenarier, där det helt enkelt inte finns något korrekt svar i träningsdatan eller någon tydlig offentlig källa att luta sig mot.

Hallucinationer och ärlighet

En del av problemet är att generativa AI-modeller i grunden är verktyg för ordprediktion. Att förutsäga nästa ord är inte samma sak som att värdera sanningshalt. Det innebär att standardbeteendet blir att generera ett nytt ord, även när det hade varit ärligare att säga ”jag vet inte”.

OpenAI har börjat ta itu med detta och arbetar med att få sina modeller att tydligare känna igen vad de inte vet och faktiskt säga det. Det är svårt att träna, eftersom belöningsmodeller sällan väljer ett tomt eller osäkert svar framför ett självsäkert, men felaktigt, sådant. Ändå har OpenAI gjort detta till ett uttalat mål för framtida modeller.

Gemini hänvisar dessutom ofta till källor när det är möjligt. Men även då pausar den inte alltid när den borde. Det hade varit mindre problematiskt om Gemini bara var en forskningsmodell, men i takt med att Gemini blir rösten bakom allt fler Google-funktioner kan självsäkra felaktigheter få stor påverkan.

Det finns också ett designval i detta. Många användare förväntar sig att en AI-assistent ska svara snabbt och smidigt. Att säga ”jag är inte säker” eller ”låt mig kolla upp det” kan kännas klumpigt i ett chattgränssnitt. Men det är förmodligen bättre än att bli vilseledd. Generativ AI är fortfarande inte alltid pålitlig, så det är fortfarande en bra idé att dubbelkolla svaren man får.

