Le modèle Gemini 3 Flash invente souvent des réponses au lieu de reconnaître quand il ne sait pas

Le problème survient surtout sur des questions factuelles ou sensibles

Mais il reste le modèle d’IA le plus précis et performant à ce jour

Rapide et intelligent, Gemini 3 Flash impressionne. Mais dès qu’une question sort de son champ d’apprentissage – qu’elle soit trop pointue, trop complexe ou simplement absente de sa base de données – il a tendance à improviser plutôt que d’admettre son ignorance, d’après une récente évaluation menée par le groupe indépendant Artificial Analysis.

Selon ce test, Gemini 3 Flash atteint un taux de 91 % sur l’indicateur de « taux d’hallucination » du benchmark AA-Omniscience. Autrement dit, dans la grande majorité des cas où le modèle ne connaît pas la réponse, il en fournit quand même une… totalement fictive.

Depuis leur apparition, les chatbots basés sur l’IA ont souvent été confrontés à ce problème d’invention. Savoir s’arrêter et reconnaître qu’on ne sait pas est tout aussi essentiel que formuler une réponse pertinente. À l’heure actuelle, le modèle Gemini 3 Flash peine à faire cette distinction. C’est justement ce que ce test cherche à mesurer : la capacité à faire la différence entre une connaissance réelle et une simple supposition.

Il convient de préciser que ce taux d’hallucination élevé ne signifie pas que 91 % des réponses de Gemini sont fausses. Cela veut dire que, dans les situations où la seule bonne réponse serait « je ne sais pas », le modèle a préféré inventer dans 91 % des cas. Une nuance importante, mais aux conséquences concrètes, surtout maintenant que Gemini s’intègre à des services comme Google Search.

Ok, it's not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025

Ce résultat ne remet pas en cause la puissance ni l’utilité de Gemini 3. Il reste le modèle le plus performant dans les tests généralistes, devançant ou égalant les dernières versions de ChatGPT et Claude. Son défaut ? Il affiche une assurance excessive là où un peu plus de prudence serait préférable.

Cette tendance à répondre avec excès de confiance se retrouve aussi chez les modèles concurrents. Ce qui distingue Gemini, c’est la fréquence à laquelle ce comportement surgit dans les scénarios d’incertitude – ces cas où il n’existe ni réponse claire dans les données d’entraînement, ni source publique fiable.

Hallucination et honnêteté

L’une des causes profondes de ce phénomène tient à la nature même des modèles génératifs : il s’agit avant tout d’outils de prédiction de mots, pas de vérification de vérité. Prédire un mot n’équivaut pas à valider un fait. Résultat : même lorsqu’il vaudrait mieux dire « je ne sais pas », le réflexe reste d’improviser une suite logique.

OpenAI s’efforce d’aborder cette problématique, en entraînant ses modèles à reconnaître les zones d’incertitude et à le signaler clairement. La tâche reste difficile : les modèles de récompense n’attribuent pas forcément de valeur à une absence de réponse face à une réponse assurée – même fausse. Pourtant, OpenAI a fait de cette question une priorité pour les prochaines générations de modèles.

De son côté, Gemini cite généralement ses sources lorsque c’est possible. Mais même dans ces cas, il ne s’interrompt pas toujours quand la situation l’exigerait. Ce détail n’aurait pas autant d’impact si Gemini restait un outil de recherche parmi d’autres. Mais à mesure qu’il devient la voix de nombreux produits Google, le risque d’induire en erreur par excès de confiance devient bien réel.

Un choix de conception entre aussi en jeu. Les utilisateurs attendent souvent de leur assistant IA des réponses rapides et fluides. Dire « je ne suis pas sûr » ou « il faut vérifier » peut sembler maladroit dans une conversation avec un chatbot. Pourtant, ce serait souvent préférable à une affirmation erronée. L’IA générative n’est pas encore totalement fiable : vérifier systématiquement ses réponses reste la meilleure précaution.