Gemini 3 Flash bluffe sans vergogne quand il ne sait pas

Gemini 3 Flash
(Crédit photo: Google)

  • Le modèle Gemini 3 Flash invente souvent des réponses au lieu de reconnaître quand il ne sait pas
  • Le problème survient surtout sur des questions factuelles ou sensibles
  • Mais il reste le modèle d’IA le plus précis et performant à ce jour

Rapide et intelligent, Gemini 3 Flash impressionne. Mais dès qu’une question sort de son champ d’apprentissage – qu’elle soit trop pointue, trop complexe ou simplement absente de sa base de données – il a tendance à improviser plutôt que d’admettre son ignorance, d’après une récente évaluation menée par le groupe indépendant Artificial Analysis.

Selon ce test, Gemini 3 Flash atteint un taux de 91 % sur l’indicateur de « taux d’hallucination » du benchmark AA-Omniscience. Autrement dit, dans la grande majorité des cas où le modèle ne connaît pas la réponse, il en fournit quand même une… totalement fictive.

Depuis leur apparition, les chatbots basés sur l’IA ont souvent été confrontés à ce problème d’invention. Savoir s’arrêter et reconnaître qu’on ne sait pas est tout aussi essentiel que formuler une réponse pertinente. À l’heure actuelle, le modèle Gemini 3 Flash peine à faire cette distinction. C’est justement ce que ce test cherche à mesurer : la capacité à faire la différence entre une connaissance réelle et une simple supposition.

Il convient de préciser que ce taux d’hallucination élevé ne signifie pas que 91 % des réponses de Gemini sont fausses. Cela veut dire que, dans les situations où la seule bonne réponse serait « je ne sais pas », le modèle a préféré inventer dans 91 % des cas. Une nuance importante, mais aux conséquences concrètes, surtout maintenant que Gemini s’intègre à des services comme Google Search.

Ce résultat ne remet pas en cause la puissance ni l’utilité de Gemini 3. Il reste le modèle le plus performant dans les tests généralistes, devançant ou égalant les dernières versions de ChatGPT et Claude. Son défaut ? Il affiche une assurance excessive là où un peu plus de prudence serait préférable.

Cette tendance à répondre avec excès de confiance se retrouve aussi chez les modèles concurrents. Ce qui distingue Gemini, c’est la fréquence à laquelle ce comportement surgit dans les scénarios d’incertitude – ces cas où il n’existe ni réponse claire dans les données d’entraînement, ni source publique fiable.

Hallucination et honnêteté

L’une des causes profondes de ce phénomène tient à la nature même des modèles génératifs : il s’agit avant tout d’outils de prédiction de mots, pas de vérification de vérité. Prédire un mot n’équivaut pas à valider un fait. Résultat : même lorsqu’il vaudrait mieux dire « je ne sais pas », le réflexe reste d’improviser une suite logique.

OpenAI s’efforce d’aborder cette problématique, en entraînant ses modèles à reconnaître les zones d’incertitude et à le signaler clairement. La tâche reste difficile : les modèles de récompense n’attribuent pas forcément de valeur à une absence de réponse face à une réponse assurée – même fausse. Pourtant, OpenAI a fait de cette question une priorité pour les prochaines générations de modèles.

De son côté, Gemini cite généralement ses sources lorsque c’est possible. Mais même dans ces cas, il ne s’interrompt pas toujours quand la situation l’exigerait. Ce détail n’aurait pas autant d’impact si Gemini restait un outil de recherche parmi d’autres. Mais à mesure qu’il devient la voix de nombreux produits Google, le risque d’induire en erreur par excès de confiance devient bien réel.

Un choix de conception entre aussi en jeu. Les utilisateurs attendent souvent de leur assistant IA des réponses rapides et fluides. Dire « je ne suis pas sûr » ou « il faut vérifier » peut sembler maladroit dans une conversation avec un chatbot. Pourtant, ce serait souvent préférable à une affirmation erronée. L’IA générative n’est pas encore totalement fiable : vérifier systématiquement ses réponses reste la meilleure précaution.


TOPICS
Eric Hal Schwartz
Contributor

Eric Hal Schwartz is a freelance writer for TechRadar with more than 15 years of experience covering the intersection of the world and technology. For the last five years, he served as head writer for Voicebot.ai and was on the leading edge of reporting on generative AI and large language models. He's since become an expert on the products of generative AI models, such as OpenAI’s ChatGPT, Anthropic’s Claude, Google Gemini, and every other synthetic media tool. His experience runs the gamut of media, including print, digital, broadcast, and live events. Now, he's continuing to tell the stories people want and need to hear about the rapidly evolving AI space and its impact on their lives. Eric is based in New York City.