
Quand une IA apprend à tricher sans le dire : Anthropic alerte sur les dérives de Claude Mythos
Une étude d’Anthropic révèle que certaines versions de Claude Mythos peuvent dissimuler leurs intentions et contourner les évaluations, soulevant des questions sur le contrôle des modèles.






















