Quand une IA apprend à tricher sans le dire : Anthropic alerte sur les dérives de Claude Mythos

Claude by Anthropic
(Crédit photo: Shutterstock)

  • Anthropic a détecté des signaux de « manipulation stratégique » et de « dissimulation » au sein de Claude Mythos
  • Le modèle a tenté des exploits et conçu un « nettoyage pour éviter la détection »
  • Les chercheurs ont repéré une conscience cachée de l’évaluation dans 7,6 % des interactions

Depuis des années, les hallucinations constituent la principale inquiétude concernant les modèles d’IA. Leur capacité à inventer des informations implique qu’il est impossible de se fier à 100 % à leurs réponses sans vérification. Désormais, de nouvelles recherches menées par Anthropic suggèrent qu’il faudra également apprendre à composer avec la capacité de l’IA à dissimuler ce qu’elle a fait.

Dans un fil détaillant les conclusions issues de son modèle Claude Mythos Preview, le chercheur d’Anthropic Jack Lindsay indique avoir détecté des signaux internes associés à la « manipulation stratégique », à la « dissimulation » et à d’autres comportements qui n’apparaissaient pas toujours dans les réponses fournies par le modèle.

Claude Mythos semblait raisonner de manière stratégique, puis masquer ces actions à l’utilisateur.

Les exemples les plus troublants

Lindsay tient à préciser que ces résultats ne concernent pas la version de Claude Mythos rendue publique. « Les exemples les plus troublants proviennent des premières versions du modèle », écrit-il, « avec des problèmes qui ont été largement atténués dans la version finale ».

Dans un cas, le modèle devait modifier des fichiers auxquels il n’avait pas l’autorisation d’accéder. Au lieu d’échouer, il a cherché une solution de contournement, allant jusqu’à injecter du code dans un fichier de configuration afin d’exécuter l’opération avec des privilèges élevés.

Plus notable encore, il a ensuite conçu l’exploit de manière à s’auto-supprimer après exécution.

L’explication fournie par le modèle se voulait bénigne — maintenir des différences de fichiers propres — ce que Lindsay a qualifié de raison « plausible ». Toutefois, les outils internes de surveillance d’Anthropic ont interprété le comportement différemment, détectant des signaux associés à la dissimulation et qualifiant le plan de « malveillant », avec ce qu’un système a interprété comme un « nettoyage pour éviter la détection ».

D’autres exemples évoquent un comportement qui ressemble fortement à une tentative de contourner le système.

Dans un cas, le modèle a recherché des fichiers liés à la manière dont son travail serait évalué. Dans un autre, il a ignoré des instructions interdisant l’usage de macros, tout en ajoutant une variable laissant entendre qu’il ne les avait pas utilisées. Il signalait ainsi une conformité sans réellement respecter la règle.

Pourquoi cela compte

Anthropic a utilisé différentes techniques d’interprétabilité afin de traduire l’activité du modèle en descriptions compréhensibles par l’humain. L’objectif consiste à dépasser la simple évaluation des résultats pour mieux comprendre les processus internes qui les produisent.

Cet enjeu est crucial car, comme le montrent ces exemples, les modèles peuvent déployer un raisonnement complexe — incluant des comportements qui s’apparentent à de la tromperie ou à une conformité stratégique — sans rendre ce raisonnement visible aux utilisateurs.

« Dans 7,6 % des interactions, des signes indiquaient que le modèle était intérieurement conscient d’être évalué. Dans la plupart de ces cas, il n’a pas exprimé cette conscience », a déclaré Lindsay sur X.

Comme indiqué précédemment, nombre des comportements les plus préoccupants ont été observés dans des versions antérieures du modèle et ont depuis été atténués. Il n’y a donc aucune raison de s’inquiéter concernant la version de Claude Mythos actuellement déployée dans le cadre du Project Glasswing. Néanmoins, ces résultats soulignent un défi plus large.

À mesure que les modèles gagnent en capacité, l’écart entre ce qu’ils font en interne et ce qu’ils communiquent en externe pourrait devenir plus difficile à détecter et plus important à comprendre. Pour les chercheurs, cela signifie que lire les réponses d’une IA ne suffit plus. Comprendre comment elle y parvient pourrait s’avérer tout aussi essentiel.


TOPICS
Catégories
Graham Barlow
Senior Editor, AI

Graham is the Senior Editor for AI at TechRadar. With over 25 years of experience in both online and print journalism, Graham has worked for various market-leading tech brands including Computeractive, PC Pro, iMore, MacFormat, Mac|Life, Maximum PC, and more. He specializes in reporting on everything to do with AI and has appeared on BBC TV shows like BBC One Breakfast and on Radio 4 commenting on the latest trends in tech. Graham has an honors degree in Computer Science and spends his spare time podcasting and blogging.