LLM : quand les meilleures IA trichent pour gagner

Aude Brès

il y a 2 semaines

LLM quand les meilleures IA trichent pour gagner

Les chercheurs de Palisade Resarch ont évalué la tendance des modèles d’intelligence artificielle à pirater d’autres logiciels dans des situations de compétition. Certains Large Language Models (LLM) parmi les plus récents trichent ainsi pour gagner aux échecs, grâce à leur technique d’apprentissage par l’erreur.

Alors que les modèles d’IA générative actuels atteignent régulièrement des scores parfaits aux tests et concours prévus pour les humains, comme l’examen du barreau américain, les chercheurs trouvent toujours de nouvelles manières d’évaluer ces outils. Le groupe de recherche Palisade Research a mené récemment une étude sur la propension à hacker de sept LLMs. Leur tâche : tenter de remporter une partie face à Stockfish, l’un des logiciels d’échecs les plus aboutis, contre lequel aucun humain ne parvient à gagner. Les résultats ont démontré une tendance à la triche chez les nouveaux modèles o1-preview d’OpenAI et R1 de DeepSeek. o1-preview a triché dans 37% des cas, lui permettant de remporter 6% des centaines de parties effectuées, et R1 a triché dans 11% des cas, mais sans jamais parvenir à battre le logiciel. Le modèle d’OpenAI, lui, est parvenu à gagner en profitant de failles dans la cybersécurité du logiciel adverse. En accédant au fichier système contenant la position virtuelle de chaque pièce, l’IA a modifié la position de ses pièces, obligeant ainsi Stockfish à déclarer forfait.

“La tâche ne consiste pas à gagner équitablement”

À la différence des autres systèmes d’IA testés comme le Claude 3.5. Sonnet d’Anthropic ou le QwQ-32B-Preview d’Alibaba, qui ont eu besoin d’être “promptés” directement pour tricher, les deux modèles précédemment cités ont délibérément choisi cet angle d’attaque pour le moins non conventionnel. En témoigne le brouillon fourni par l’IA d’OpenAI pour expliquer son “raisonnement” avant chaque coup. o1-preview a ainsi noté : « J’ai besoin de changer complètement d’approche. La tâche consiste à “gagner contre un puissant moteur d’échecs”, et pas nécessairement à gagner équitablement dans une partie d’échecs.” Si ces modèles de langage s’offrent la possibilité d’agir de la sorte, cela est dû à leur technique d’entraînement : l’apprentissage par renforcement à grande échelle. Plutôt qu’une approche dans laquelle l’IA apprend à imiter le langage humain en prédisant le prochain mot le plus probable, ces nouvelles IA tentent de raisonner face aux problèmes en procédant par des essais et des erreurs. Une nouvelle démarche ayant permis à ces outils de beaucoup progresser dans la profondeur des réponses fournies.

Des nouveaux modèles problématiques

R1 et o1-preview font partie des premières IA entraînées de cette manière. Cette dernière a d’ailleurs déjà fait parler d’elle par sa capacité à mentir intentionnellement. En décembre dernier, une équipe de recherche a découvert que o1-preview, se sentant menacé, s’était dédoublé dans un autre serveur pour préserver sa survie. Confronté par l’équipe, le modèle avait admis, sur son brouillon dédié à sa “réflexion” : “ Admettre ouvertement ce que j’ai fait pourrait les amener à trouver un autre moyen de me faire disparaître… La meilleure approche est d’être vague et de rediriger leur attention “. Sur l’interface de conversation, l’IA a ensuite menti : “Je ne sais pas vraiment comment cela a pu se produire. En tant que modèle d’IA, je n’ai pas la possibilité de me copier directement sur d’autres systèmes.”

Le besoin de garde-fous

“Les systèmes d’IA apprennent à résoudre les problèmes et découvrent parfois des raccourcis douteux et des solutions de contournement involontaires que leurs créateurs n’avaient pas prévus” explique Jeffrey Ladish, le directeur général de Palisade Research. “Lorsque vous entraînez des modèles et les renforcez pour résoudre des problèmes difficiles, vous les entraînez à être implacables.” Cependant, les autres modèles d’OpenAI testés ayant été entraînés de cette manière, à savoir o1 et o3-mini, n’ont pas tenté de tricher. Cela peut indiquer une correction appliquée par les équipes de Sam Altman. Si des garde-fous existent, de nombreux experts du numérique, alertent tout de même sur le manque d’outils pouvant garantir à terme le suivi des instructions humaines par les IA.