ChatGPT-5 gagne en précision, GPT-4o recule, Grok accumule les erreurs

ChatGPT-5
(Crédit photo: Shutterstock/JarTee)

  • ChatGPT-5 affiche un faible taux de 1,4 % sur le Hallucination Leaderboard
  • Ce score le place devant ChatGPT-4, qui obtient 1,8 %, et GPT-4o, avec 1,49 %
    Grok 4 est bien plus haut avec 4,8 %, tandis que Gemini-2.5 Pro atteint 2,6 %

Jeudi, Sam Altman, PDG d’OpenAI, a présenté ChatGPT-5 comme la version la plus « puissante, intelligente, rapide, fiable et robuste » jamais proposée, en soulignant lors de la présentation que le modèle devait « réduire les hallucinations ».

Même si le taux d’hallucinations diminue pour la majorité des modèles de langage, il reste encore étonnamment fréquent et constitue l’une des principales raisons pour lesquelles l’IA ne peut pas encore être utilisée sans supervision humaine.

Vectara, plateforme RAG-as-a-Service et d’agents IA qui tient le principal classement du secteur sur les hallucinations pour les modèles de base et de raisonnement, a soumis les affirmations d’OpenAI à un test. Les résultats montrent que GPT-5 se classe effectivement devant GPT-4 sur ce critère, mais seulement légèrement devant GPT-4o (à peine 0,09 % de moins).

Selon Vectara, GPT-5 affiche un taux d’hallucinations « ancrées » de 1,4 %, contre 1,8 % pour GPT-4, 1,69 % pour GPT-4 Turbo et 4o mini, et 1,49 % pour GPT-4o.

Un Grok « épicé »

De façon surprenante, le taux d’hallucinations de ChatGPT-5 est légèrement supérieur à celui du mode Preview de ChatGPT-4.5 (1,2 %), mais il reste plus bas que celui de o3-mini High Reasoning d’OpenAI, qui s’impose comme le meilleur modèle GPT sur ce point, avec seulement 0,795 %.

Les résultats des tests de Vectara sont visibles sur le Hughes Hallucination Evaluation Model (HHEM) Leaderboard hébergé sur Hugging Face, qui précise qu’« un taux d’hallucination pour un LLM est défini comme le rapport entre le nombre de résumés comportant des hallucinations et le nombre total de résumés générés ».

ChatGPT-5 hallucine toutefois nettement moins que ses concurrents, Gemini-2.5 Pro affichant 2,6 % et Grok-4 grimpant à 4,8 %.

Par ailleurs, XAI, l’éditeur de Grok, a récemment été vivement critiqué pour son nouveau mode « Spicy » intégré à Grok Imagine, un générateur vidéo d’IA qui accepte de produire des deepfakes dénudés de célébrités comme Taylor Swift, même lorsque la nudité n’a pas été demandée, alors que des filtres et une modération sont censés bloquer tout contenu sexuel explicite.

A close up shot of Taylor Swift on the 2024 Grammys red carpet

Grok Imagine est accusé d'avoir délibérément créé des deepfakes à caractère sexuellement explicite de Taylor Swift. (Image credit: Neilson Barnard/Getty Images)

« J'ai perdu mon meilleur ami »

OpenAI a dû faire face à une vague de critiques quasi immédiate après avoir retiré ChatGPT-4 et toutes ses variantes, dont GPT-4o et 4o-mini, des comptes Plus lors du lancement de ChatGPT-5. De nombreux utilisateurs ont exprimé leur colère, reprochant à la société de n’avoir donné aucun préavis. Sur Reddit, certains expliquaient avoir « perdu leur seul ami du jour au lendemain ».

Il apparaît désormais que ChatGPT-5 a remplacé l’une des versions les plus fiables de ChatGPT du point de vue des hallucinations : la version 4.5.

Sam Altman a rapidement réagi sur X : « Nous avons clairement sous-estimé à quel point certaines choses que les gens apprécient dans GPT-4o comptent pour eux, même si GPT-5 est meilleur dans la plupart des domaines ». Il a promis de réintroduire ChatGPT-4o pour les utilisateurs Plus pendant une durée limitée, précisant : « Nous suivrons l’usage afin de décider combien de temps proposer les modèles hérités ».

Vous aimerez aussi

TOPICS
Adrien Bar Hiyé
Senior Editor

Quand je ne suis pas en train de plonger dans le monde fascinant de la finance et des nouvelles technologies, vous me trouverez probablement en train de parcourir le globe ou de conquérir de nouveaux mondes virtuels sur ma console de jeux.

Avec la contribution de