OpenAI o3 a vaincu Grok 4 d’Elon Musk aux échecs

Magnus Carlsen a livré des commentaires acerbes sur la qualité de la logique de Grok

Grok 4 a commis des bourdes à répétition, tandis que o3 a joué avec constance

Le tournoi d’échecs entre le modèle o3 d’OpenAI et Grok 4 de xAI a suscité de nombreuses spéculations, perçu comme un affrontement par procuration entre les deux entreprises et leurs dirigeants respectifs. Toute comparaison avec l’époque de Deep Blue et Bobby Fischer s’est vite estompée, puisque OpenAI o3 a balayé Grok 4 à plusieurs reprises, enchaînant quatre victoires de suite, le tout sous les commentaires mordants de l’ancien champion du monde Magnus Carlsen et du grand maître David Howell.

L’affrontement s’est tenu sur le Game Arena de Kaggle, un colisée numérique où les modèles d’IA s’affrontent aux échecs et à d’autres jeux. Le tournoi réunissait huit des LLM les plus en vue du secteur : o3 et o4-mini d’OpenAI, Gemini 2.5 Pro et Flash de Google, Claude Opus d’Anthropic, DeepSeek et Kimi de Moonshot, ainsi que Grok 4 de xAI. La finale opposait Grok à o3, mais la prestation de Grok lors du dernier acte n’avait rien d’un duel de champions.

Carlsen et Howell ont alterné entre analyse sérieuse et franche moquerie face à la performance erratique de Grok. Dans la première partie, il a rapidement sacrifié son fou, puis s’est mis à échanger des pièces comme s’il était pressé de rentrer chez lui. La suite n’a pas été meilleure pour Grok.

« Grok, c’est ce joueur de tournoi de club qui a appris la théorie et ne sait littéralement rien d’autre », a lancé Carlsen pendant la deuxième partie. « Après, il commet les pires gaffes. »

La performance de Grok était tellement hors de contrôle que Carlsen l’a évaluée autour de 800 Elo, soit légèrement au-dessus d’un débutant. Il a attribué à o3 un 1200 modeste mais respectable, dans la moyenne des joueurs amateurs. Même si o3 n’a pas joué brillamment, ce n’était pas nécessaire. Il a joué des coups solides. Il n’a pas donné de pièces. Il a converti ses avantages et exécuté les schémas classiques.

« o3 est assez impitoyable dans la conversion des avantages, il ressemble à un joueur d’échecs. Grok donne l’impression d’avoir appris quelques coups d’ouverture et de connaître les règles, mais pas beaucoup plus », a commenté Carlsen. « Les coups de Grok sont liés aux échecs, ils arrivent juste au mauvais moment et dans des séquences bizarres. »

IA d’échecs

Les échecs n’étaient pas l’objectif principal du tournoi, malgré leur visibilité. Il s’agissait d’observer comment des modèles d’IA généralistes gèrent des environnements aux règles strictes comme une partie d’échecs. Il s’avère qu’ils ne sont pas excellents, mais o3 est le meilleur de l’échantillon limité. À mesure que l’IA s’intègre partout, la capacité à suivre des règles et à repérer des motifs devient essentielle. Les échecs offrent une fenêtre particulièrement transparente : soit le bon coup est joué, soit non. Quand un modèle joue bien, la logique se voit ; sinon, les dames tombent comme des dominos et la partie devient aussi confuse que cette métaphore.

Les échecs servent de révélateur de la capacité d’une IA à planifier, évaluer des options, éviter les erreurs catastrophiques et rester cohérente logiquement. Si Grok donne sa dame parce qu’il ne saisit pas les conséquences à long terme, que pourrait-il faire dans un document juridique ou lors d’une réservation de voyage ?

Que la finale ait opposé OpenAI à xAI ajoutait un peu de dramaturgie, Sam Altman et Elon Musk s’affrontant publiquement. La finale d’échecs n’a pas tranché leur rivalité, mais elle a offert à OpenAI un succès de communication auprès du grand public, ainsi qu’un compliment limité mais bien réel de la part de Magnus Carlsen.