Nieuwste AI van Google liegt liever dan dat het toegeeft het antwoord niet te weten

Gemini 3 Flash
(Beeld: Google)

Gemini 3 Flash is snel en slim. Maar als je het iets vraagt wat het eigenlijk niet weet, iets obscuurs, lastigs of gewoon buiten zijn trainingsdata dan probeert het zich er vrijwel altijd uit te bluffen, blijkt uit een recente evaluatie van de onafhankelijke testgroep Artificial Analysis.

Het lijkt erop dat Gemini 3 Flash een score van 91% behaalde op het onderdeel "hallucination rate" van de AA-Omniscience-benchmark. Dat betekent dat wanneer het model het antwoord niet had, het toch bijna altijd een antwoord gaf. Dat is dus een antwoord dat volledig verzonnen was.

Dit resultaat doet niets af aan de kracht en bruikbaarheid van Gemini 3. Het model blijft een van de best presterende AI’s in algemene tests en scoort vergelijkbaar met, of zelfs beter dan de nieuwste versies van ChatGPT en Claude. Het model neigt er alleen te sterk toe om alwetend te ogen op momenten waarop bescheidenheid passender zou zijn.

Die overmatige zelfverzekerdheid komt ook voor bij concurrenten van Gemini. Wat Gemini’s score vooral opvallend maakt, is hoe vaak dit gebeurt in situaties van onzekerheid, waarin simpelweg geen juist antwoord in de trainingsdata zit of geen eenduidige publieke bron bestaat om naar te verwijzen.

Beter eerlijk zijn dan verzinnen

Een belangrijk deel van het probleem is dat generatieve AI vooral goed is in het voorspellen van woorden, niet in het checken van de waarheid. Het model wil altijd een volgend woord geven, ook als “ik weet het niet” eigenlijk het eerlijkste antwoord zou zijn.

OpenAI probeert dat inmiddels te verbeteren door modellen te leren herkennen wat ze níét weten. Dat is lastig, omdat trainingssystemen een zelfverzekerd antwoord vaak hoger belonen dan een terughoudende reactie, zelfs als die fout is. Toch is het een speerpunt voor toekomstige modellen.

Gemini vermeldt meestal wel bronnen, maar ook dan slaat het soms door waar het eigenlijk zou moeten stoppen. Dat is extra gevoelig nu Gemini achter steeds meer Google-functies zit: een AI die overtuigend ongelijk heeft, kan flinke gevolgen hebben.

Tegelijk speelt gebruiksgemak mee. Veel mensen verwachten snelle, vloeiende antwoorden van een AI-assistent. Twijfel uitspreken kan onhandig aanvoelen, maar is waarschijnlijk beter dan verkeerde informatie. Hoe slim generatieve AI ook is, controleren blijft verstandig.

TOPICS
Jouri Altorf
Redacteur

Jouri heeft een passie voor esports en is tegelijkertijd onze airfryer-expert van dienst. Hij is ook de trotse eigenaar van een Garmin Instinct Crossover, die hij gebruikt om zijn workouts in de sportschool, bergwandelingen en avonturen in moshpits te tracken.

Met ondersteuning van