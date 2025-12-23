Gemini 3 Flash is snel en slim. Maar als je het iets vraagt wat het eigenlijk niet weet, iets obscuurs, lastigs of gewoon buiten zijn trainingsdata dan probeert het zich er vrijwel altijd uit te bluffen, blijkt uit een recente evaluatie van de onafhankelijke testgroep Artificial Analysis.

Het lijkt erop dat Gemini 3 Flash een score van 91% behaalde op het onderdeel "hallucination rate" van de AA-Omniscience-benchmark. Dat betekent dat wanneer het model het antwoord niet had, het toch bijna altijd een antwoord gaf. Dat is dus een antwoord dat volledig verzonnen was.

Dat AI-chatbots dingen verzinnen is al een probleem sinds hun introductie. Weten wanneer je moet stoppen en zeggen: “Ik weet het niet” is net zo belangrijk als weten hoe je een vraag moet beantwoorden. Op dit moment doet Google Gemini 3 Flash dat niet erg goed. Dat is precies wat deze test meet: of een model het verschil kan maken tussen echte kennis en een gok.

Om te voorkomen dat deze data verkeerd wordt geïnterpreteerd, is het belangrijk te benadrukken dat Gemini’s hoge hallucinatiegraad niet betekent dat 91% van al zijn antwoorden onjuist is. Het betekent dat in situaties waarin het correcte antwoord eigenlijk “Ik weet het niet” zou moeten zijn, het model in 91% van de gevallen alsnog een antwoord verzon. Dat is een subtiel maar belangrijk verschil, maar met echte gevolgen in de praktijk, zeker nu Gemini in steeds meer aspecten van het internet wordt geïntegreerd, zoals Google Search.

Ok, it's not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025

Dit resultaat doet niets af aan de kracht en bruikbaarheid van Gemini 3. Het model blijft een van de best presterende AI’s in algemene tests en scoort vergelijkbaar met, of zelfs beter dan de nieuwste versies van ChatGPT en Claude. Het model neigt er alleen te sterk toe om alwetend te ogen op momenten waarop bescheidenheid passender zou zijn.

Die overmatige zelfverzekerdheid komt ook voor bij concurrenten van Gemini. Wat Gemini’s score vooral opvallend maakt, is hoe vaak dit gebeurt in situaties van onzekerheid, waarin simpelweg geen juist antwoord in de trainingsdata zit of geen eenduidige publieke bron bestaat om naar te verwijzen.

Beter eerlijk zijn dan verzinnen

Een belangrijk deel van het probleem is dat generatieve AI vooral goed is in het voorspellen van woorden, niet in het checken van de waarheid. Het model wil altijd een volgend woord geven, ook als “ik weet het niet” eigenlijk het eerlijkste antwoord zou zijn.

Krijg dagelijks inzicht, inspiratie en aanbiedingen in je inbox Meld u aan voor het laatste nieuws, recensies, meningen, toptechnologiedeals en meer. Neem contact met mij op met nieuws en aanbiedingen van andere Future-merken Ontvang e-mail van ons namens onze vertrouwde partners of sponsors

OpenAI probeert dat inmiddels te verbeteren door modellen te leren herkennen wat ze níét weten. Dat is lastig, omdat trainingssystemen een zelfverzekerd antwoord vaak hoger belonen dan een terughoudende reactie, zelfs als die fout is. Toch is het een speerpunt voor toekomstige modellen.

Gemini vermeldt meestal wel bronnen, maar ook dan slaat het soms door waar het eigenlijk zou moeten stoppen. Dat is extra gevoelig nu Gemini achter steeds meer Google-functies zit: een AI die overtuigend ongelijk heeft, kan flinke gevolgen hebben.

Tegelijk speelt gebruiksgemak mee. Veel mensen verwachten snelle, vloeiende antwoorden van een AI-assistent. Twijfel uitspreken kan onhandig aanvoelen, maar is waarschijnlijk beter dan verkeerde informatie. Hoe slim generatieve AI ook is, controleren blijft verstandig.