L’intelligence humaine surpassée par l’IA ? Pourquoi cette dernière ne fait pas (encore) le poids

L’intelligence artificielle, depuis l’apogée de ChatGPT il y a deux ans, semble quotidiennement franchir de nouveaux sommets. Les solutions IA se sont multipliées (Claude 3 d’Anthropic, Gemini de Google, la suite Apple Intelligence, etc.), les modèles sont de plus en plus cohérents, créatifs et efficaces. Certains systèmes peuvent générer des sons, des vidéos (comme Sora d’OpenAI), aider à la conception de médicaments, optimiser des chaînes logistiques ou s’occuper de la gestion des risques financiers.

Elle est une technologie de rupture par excellence, comme l’a été la maîtrise de l’électricité au XIXᵉ siècle ou l’invention de la roue au néolithique il y a 5 500 ans. Pourtant, une expérience menée par une équipe de chercheurs dirigée par Yuan Gao à l’Université de Boston vient tempérer ce constat. Ceux-ci ont mis à l’épreuve les capacités de raisonnement stratégique des plus grands modèles de langage actuels, avec des résultats étonnamment modestes. Les résultats de leurs travaux ont été publiés le 13 novembre sur ArXiv.

Le jeu des shekels : un révélateur des profondeurs de la pensée

Le « jeu 11-20 » se distingue dans l’arsenal des économistes comportementaux comme un outil remarquable pour sonder les mécanismes de la pensée stratégique. Son principe, d’une simplicité trompeuse, cache un véritable laboratoire des dynamiques décisionnelles : deux participants doivent choisir un montant entre 11 et 20 shekels (devise israélienne), avec la garantie de recevoir la somme demandée. L’élément crucial est la prime de 20 shekels accordée au joueur qui demande exactement un shekel de moins que son adversaire.

Cette mécanique engendre une pyramide de raisonnements, que les théoriciens des jeux ont baptisée « level-k reasoning ». Au niveau le plus basique (niveau 0), un joueur choisit 20 shekels sans réflexion stratégique. Un joueur de niveau 1, anticipant ce choix naïf, opte pour 19, s’assurant ainsi la prime. Le niveau 2 pousse le raisonnement plus loin : prévoyant que l’adversaire jouera niveau 1 (19), il choisit 18. Cette progression peut théoriquement se poursuivre jusqu’à 11, créant une spirale de déductions où chaque niveau intègre et dépasse la stratégie du niveau précédent.

La beauté de ce jeu réside dans sa capacité à révéler la profondeur du raisonnement stratégique humain. Les joueurs doivent non seulement anticiper le comportement de leur adversaire, mais aussi évaluer son niveau de complexité stratégique. La plupart des humains s’arrêtent naturellement à des niveaux intermédiaires (comme 17 ou 16), reflétant une forme d’équilibre entre subtilité cognitive et pragmatisme. Cette tendance démontre une compréhension intuitive que pousser le raisonnement trop loin peut s’avérer contre-productif, car peu d’adversaires atteignent ces niveaux de réflexion extrêmes.

Les modèles d’IA : des stratèges superficiels

L’équipe de Yuan Gao a soumis les plus récents modèles d’IA à mille parties de ce jeu, dans des conditions variées. Les résultats révèlent une limitation fondamentale : même les systèmes les plus avancés comme GPT-4 se cantonnent à des stratégies basiques.

Alors que les joueurs humains manifestent une compréhension intuitive des dynamiques sociales en choisissant des valeurs intermédiaires comme 17, les IA restent bloquées sur des choix élémentaires (19 ou 20), démontrant une incapacité à développer des stratégies plus sophistiquées. Autre fait intéressant : leurs réponses varient de manière incohérente selon des facteurs non pertinents, comme la langue utilisée dans les instructions.

L’écart persistant entre imitation et compréhension

Quelle distinction fondamentale entre l’intelligence humaine et artificielle met donc en lumière cette étude ? Le cerveau humain intègre naturellement une multitude de facteurs : expériences passées, émotions, intuitions sociales, désir de victoire et capacité à se mettre à la place de l’autre.

En revanche, les modèles de langage, malgré leur sophistication apparente, fonctionnent essentiellement comme des systèmes de prédiction de texte, dépourvus de véritable compréhension des enjeux stratégiques. En ce sens-là, ils ne sont pas pourvus de véritable intelligence, ils sont simplement des algorithmes. Très puissants, certes, mais mécaniques et basés sur des règles statistiques. La métaphore du perroquet utilisée par les chercheurs illustre parfaitement cette limite : même si ces oiseaux peuvent reproduire des phrases complexes, ils ne comprennent pas leur signification profonde.

Actuellement, de nombreuses entreprises envisagent de remplacer les panels humains traditionnels par des systèmes d’IA pour tester leurs produits, leurs campagnes publicitaires ou leurs stratégies de marché. Cette transition promettrait des économies substantielles : plus besoin de recruter, rémunérer et coordonner des centaines de participants humains pour chaque étude.

Toutefois, les résultats du jeu 11-20 sonnent comme un avertissement. Si les modèles d’IA les plus avancés échouent à reproduire la complexité du raisonnement humain dans une situation aussi élémentaire, comment pourraient-ils prédire fidèlement des comportements plus complexes ?  L’hégémonie de l’IA n’est vraisemblablement pas pour demain, ce qui confirme bien les travaux menés par le Centre d’Éthique Appliquée de l’université UMass Boston dont vous nous parlions dans cet article. Rien n’est cependant gravé dans le marbre, et ce constat pourrait très vite évoluer au regard des progrès abattus dans le secteur sur la dernière décennie.

  • Une étude sur le jeu 11-20 révèle que les modèles d’IA les plus avancés, comme GPT-4, manquent de profondeur stratégique et se limitent à des choix basiques.
  • Contrairement aux humains, les IA ne saisissent pas la complexité sociale et intuitive des décisions.
  • Ces modèles, pour le moment, restent de simples outils prédictifs dépourvus de compréhension.

📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.