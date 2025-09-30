OpenAI a présenté GDPval, un nouveau système d’évaluation conçu pour mesurer les performances de l’IA sur des tâches professionnelles concrètes

Claude Opus 4.1 arrive en tête, suivi par la version « ChatGPT-5 high »

Parmi les exemples de tâches figurent des réponses par e-mail à des clients mécontents

Les benchmarks d’intelligence artificielle sont bien connus. Ils permettent de tester les modèles sur des exercices précis. Mais ces évaluations s’éloignent souvent des usages réels, notamment dans un cadre professionnel.

Pour combler ce fossé, OpenAI, à l’origine de ChatGPT, lance GDPval. Ce système mesure les performances des IA sur des missions directement inspirées du monde du travail, en comparant leurs résultats à ceux d’experts humains issus de 44 professions : développeurs, avocats, infirmiers ou encore ingénieurs en mécanique.

Contre toute attente, l’étude menée par OpenAI révèle que le modèle le plus performant n’est autre que Claude Opus 4.1, développé par Anthropic. Ce dernier surclasse non seulement GPT-5, mais également Gemini et Grok.

Taux de réussite de GDPval

(Image credit: OpenAI)

Le graphique illustre le taux de réussite global selon GDPval, c’est-à-dire la fréquence à laquelle l’IA surpasse un expert du secteur.

Claude Opus 4.1 se détache nettement avec un taux de 47,6 %, devant « ChatGPT-5 high » à 38,8 % et « ChatGPT o3 high » à 34,1 %. ChatGPT-4o ferme la marche avec 12,4 %, loin derrière Grok 4 et Gemini 2.5 Pro.

L’étude montre que Claude obtient les meilleurs résultats dans huit des neuf grands secteurs testés, dont la fonction publique, la santé et l’aide sociale. Ces résultats confirment que Claude Opus 4.1 domine une large gamme de tâches liées au monde professionnel.

(Image credit: OpenAI)

Parmi les tâches évaluées figurent notamment la rédaction d’un e-mail à un client insatisfait demandant un retour, l’optimisation de la disposition d’un stand pour une foire de printemps ou encore l’audit d’anomalies de prix sur des bons de commande.

Pourquoi “GDPval” ?

Le nom choisi par OpenAI fait écho au PIB (Produit Intérieur Brut), indicateur central en économie. Avec GDPval, l’objectif est de proposer une méthode d’évaluation ancrée dans des preuves concrètes, et non dans des spéculations.

Publier des résultats plaçant un concurrent en tête pourrait s’apparenter à un exercice de transparence radicale. Mais cette démarche s’inscrit dans la logique affichée par l’entreprise. « Notre mission est de faire en sorte que l’intelligence artificielle générale bénéficie à toute l’humanité. Dans cette optique, nous souhaitons communiquer de manière transparente sur les progrès des modèles d’IA dans le monde réel », peut-on lire dans une déclaration d’OpenAI.

L’intégralité de l’étude est disponible en ligne. Elle a été menée par l’équipe de recherche économique d’OpenAI et l’économiste de Harvard David Deming, pour le compte du National Bureau of Economic Research (NBER). Ces résultats surprennent, d’autant plus que les dernières avancées de ChatGPT visaient essentiellement à renforcer ses usages professionnels, qu’il s’agisse de programmation, de présentation ou de recherche.

Le constat selon lequel Claude Opus 4.1 surpasse même « ChatGPT-5 high » sur des tâches concrètes, et non plus seulement sur des benchmarks théoriques, pourrait bien rediriger les priorités d’OpenAI, en phase avec l’évolution de son public d’utilisateurs.