Gemini écrit comme un humain… au point de tromper presque tous les détecteurs d’IA

Illustration of a humanoid robot tapping a blue screen displaying computer readout style data
(Crédit photo: Getty Images)

  • Selon des chercheurs, Gemini produit l’écriture la plus proche du style humain parmi les principaux outils d’IA
  • Les contenus rédigés par l’IA sont devenus de plus en plus difficiles à repérer pour de nombreux détecteurs
  • Les outils de détection d’IA présentent des niveaux de précision très variables, ce qui conduit à des résultats incohérents pour un même texte

Google Gemini surpasse ses concurrents parmi les chatbots d’IA lorsqu’il s’agit de convaincre que le contenu généré par le modèle provient d’un humain, selon des chercheurs.

Les articles et récits rédigés avec Gemini échappent plus souvent aux outils de détection que ceux produits par des rivaux comme ChatGPT ou Grok — un honneur discutable à l’heure où Internet se remplit de contenus IA de mauvaise qualité.

Ces conclusions proviennent d’une analyse menée par Open Resource Applications, qui a testé une douzaine de systèmes d’IA largement utilisés en leur confiant la même consigne. Chaque modèle devait produire un long article au ton humain. Les textes ont ensuite été soumis à trois plateformes de détection — Grammarly, QuillBot et GPTZero — afin d’évaluer leur capacité à identifier un contenu généré par une machine. Gemini est arrivé en tête, avec le taux de détection global le plus faible du groupe.

Ce résultat ne concerne pas seulement la performance d’un modèle, mais soulève une question plus large. Pour les lecteurs, les auteurs et toute personne passant du temps en ligne, la distinction entre écriture humaine et écriture générée par IA devient de moins en moins fiable, même lorsque des outils sont spécifiquement conçus pour établir cette différence.

L'IA imite les humains

Les chiffres de l’étude racontent une histoire claire. Les productions de Gemini ont été beaucoup moins souvent signalées par Grammarly et n’ont pas été détectées du tout par QuillBot, tandis que GPTZero a continué d’identifier la majorité des textes générés par IA. L’écart entre ces outils reste néanmoins important. Un même texte peut ainsi être considéré comme entièrement humain ou clairement artificiel selon l’application utilisée, sans que l’auteur n’ait de contrôle sur ce choix.

Un étudiant rendant un devoir peut passer un détecteur et échouer à un autre. Un rédacteur juridique peut voir son travail remis en question selon le logiciel choisi par son responsable. Pour le grand public, cela crée une incertitude croissante quant à la manière dont les écrits sont évalués et interprétés.

Gemini s’est révélé le plus convaincant pour imiter l’écriture humaine : ses textes ont rarement été signalés par Grammarly et jamais par QuillBot. Grammarly a affiché la capacité de détection la plus faible, identifiant seulement 43,5 % des contenus générés par IA, tandis que GPTZero s’est distingué comme l’outil le plus efficace, reconnaissant correctement les textes IA dans près de 98,8 % des cas.

Une partie de l’avantage de Gemini semble provenir de sa manière différente d’assembler les phrases. Les outils de détection s’appuient souvent sur des motifs, en recherchant des structures prévisibles ou des formulations familières. Les modèles qui varient davantage leur structure et développent les idées de manière moins uniforme sont plus difficiles à détecter, car ils ne suivent pas les mêmes rythmes reconnaissables.

« Des outils comme GPTZero signalent la prévisibilité et la structure globale. Un modèle qui raisonne réellement à travers les idées plutôt que de recycler des formules familières sera beaucoup plus difficile à détecter », a déclaré un porte-parole d’ORA.

« L’écart entre les modèles est déjà suffisamment large pour qu’un même prompt produise des résultats totalement différents selon l’outil utilisé. La plupart des gens choisissent un outil d’écriture IA en se tournant vers le plus populaire, ce qui explique pourquoi ChatGPT est signalé encore et encore. »

ChatGPT ne parvient pas à tromper les détecteurs d'IA

Cela permet de comprendre pourquoi ChatGPT, malgré son immense popularité, a obtenu des résultats relativement faibles lors du même test. Avec des centaines de millions d’utilisateurs, il est devenu la voix la plus familière de l’écriture IA. Cette familiarité le rend plus facile à reconnaître.

« ChatGPT se classe si bas parce qu’il a été la première grande IA sur le marché et que tout le monde sait à quoi elle ressemble », explique un porte-parole d’Open Resource Applications. « De nombreux modèles lancés ensuite ressemblaient d’abord à ChatGPT avant de développer un style plus distinct. C’est pour cela que les détecteurs d’IA le repèrent aussi facilement. »

D’une certaine manière, l’influence de ChatGPT a joué contre lui. En façonnant les premières attentes sur ce que devait être une écriture générée par IA, il a fourni aux outils de détection un modèle de référence. Des systèmes plus récents comme Gemini se sont éloignés de ce schéma, introduisant davantage de variation et moins de prévisibilité.

La montée des contenus IA de faible qualité

Ces tests prennent une importance croissante à mesure que des millions de personnes utilisent les outils d’IA et publient des contenus générés par IA de qualité médiocre. Certaines études suggèrent qu’environ la moitié des contenus en ligne seraient désormais générés, au moins en partie, par l’IA.

Les plateformes ont commencé à réagir en filtrant les contenus jugés trop artificiels, mais cette approche repose sur des outils de détection loin d’être cohérents. Le problème ne réside pas tant dans les faux positifs que dans les détections manquées, surtout à mesure que les modèles progressent.

La tendance générale est difficile à ignorer. L’écriture générée par IA ne fait pas que s’améliorer, elle se diversifie. Les différents modèles développent désormais des styles distincts, rendant plus difficile la définition d’une « voix IA » unique. Cette diversité complique la détection tout en renforçant l’utilité de la technologie.

La performance de Gemini dans cette étude pourrait laisser penser qu’il écrit mieux, mais son véritable atout réside dans sa capacité à éviter les schémas qui trahissent l’IA. Cet avantage pourrait être temporaire, à mesure que les outils de détection s’adaptent et que d’autres modèles évoluent, mais il illustre la rapidité avec laquelle le paysage change.

Pour les lecteurs, l’enjeu n’est pas de choisir un camp, mais d’ajuster leurs attentes. Internet n’est plus un espace où l’écriture humaine et l’écriture générée par machine peuvent être facilement distinguées. Il s’agit désormais d’un mélange, et ce mélange devient de plus en plus homogène.

Dans ce contexte, la question n’est plus de savoir si un texte semble humain — de plus en plus, tous le semblent.


Catégories
Eric Hal Schwartz
Contributor

Eric Hal Schwartz is a freelance writer for TechRadar with more than 15 years of experience covering the intersection of the world and technology. For the last five years, he served as head writer for Voicebot.ai and was on the leading edge of reporting on generative AI and large language models. He's since become an expert on the products of generative AI models, such as OpenAI’s ChatGPT, Anthropic’s Claude, Google Gemini, and every other synthetic media tool. His experience runs the gamut of media, including print, digital, broadcast, and live events. Now, he's continuing to tell the stories people want and need to hear about the rapidly evolving AI space and its impact on their lives. Eric is based in New York City.