Il y a 75 ans, le pionnier de l’informatique Alan Turing suggérait qu’on pourrait considérer une machine comme intelligente le jour où, en dialoguant par écrit avec elle pendant quelques minutes, on serait incapable de déterminer s’il s’agit d’un humain ou d’une machine. Aujourd’hui, on peut considérer que les grands modèles de langage (LLM : large language models) disponibles pour le public tels que ChatGPT réussissent le test de Turing. Peut-on pour autant les considérer comme intelligents ?
Le problème du test de Turing est qu’il valorise excessivement la capacité à produire du langage. Or nous sommes facilement trompés par les beaux parleurs. Un agent conversationnel qui singe les maniérismes humains et produit du texte plausible en réponse à nos questions peut aisément faire illusion. C’est pourquoi ce test n’est plus considéré comme une évaluation suffisante de l’intelligence artificielle par les spécialistes du domaine.
Les LLM ne savent pas compter
L’intelligence artificielle générale est maintenant définie comme le fait d’égaler ou dépasser les performances cognitives des êtres humains dans tous les domaines, y compris dialoguer en langage naturel, mais aussi résoudre des problèmes nouveaux, apprendre des tâches nouvelles, transférer des compétences d’un domaine à l’autre sans avoir besoin d’être reprogrammé. Ces dernières années, les LLM n’ont cessé de nous étonner par leur capacité à manipuler le langage et à interagir avec nous et ont atteint une partie de ces objectifs. Par exemple, les LLM les plus récents peuvent obtenir des scores supérieurs à l’élève moyen en lecture et en sciences aux évaluations PISA de l’OCDE, ainsi qu’aux épreuves de mathématiques du baccalauréat finlandais.
En même temps, ils montrent de piètres performances sur des tâches qui nous semblent élémentaires. Par exemple, j’ai demandé à ChatGPT-5 de me donner le nombre de départements français ayant un nom en six lettres, une tâche à la portée d’un enfant de huit ans un peu consciencieux. Non seulement il est loin du compte – huit au lieu de quinze -, mais il trouve le moyen de conserver un intrus – la Corrèze – dans son décompte final !
Savoir comment les LLM fonctionnent permet de mieux comprendre les raisons de leurs échecs. Ils produisent du texte plausible étant donné les questions qui leur sont posées et le corpus sur lequel ils sont entraînés. Ce dernier s’accroît sans cesse pour tendre vers la totalité des œuvres écrites et du contenu d’internet. Ainsi, les LLM stockent, dans leur nombre astronomique de paramètres, un condensé de toutes les connaissances humaines. Il n’est donc pas étonnant qu’ils donnent souvent des réponses justes à toutes les questions dont la réponse est connue. Ils sont également capables de répondre à des questions nouvelles dont la réponse peut être extrapolée à partir du corpus d’entraînement. Mais plus on s’éloigne de ce dernier, plus les réponses deviennent hasardeuses.
Ainsi, la liste des départements français se trouve bien dans le corpus d’entraînement de ChatGPT. Mais il ne s’agit que de texte, pas d’une connaissance structurée comme dans une base de données. De plus, le nombre de lettres de chaque mot ne s’y trouve pas. Or les LLM n’ont pas d’algorithme fiable pour compter. Lorsqu’ils répondent à une question mathématique, ils ne font pas un calcul, ni un raisonnement mathématique. Ils produisent simplement des séquences de mots qui sont des suites plausibles à la question et utilisent des procédures de vérification et de correction, toujours basées sur la probabilité des séquences de mots, pour corriger certaines de leurs erreurs. Cela les amène à produire, dans un grand nombre de cas, des réponses justes. Mais n’étant pas le résultat d’un raisonnement logique, il n’y a aucune garantie qu’elles le soient. Produire du langage qui ressemble au résultat, même juste, d’un raisonnement, n’est pas raisonner.
Les IA échouent encore à de nombreux tests
C’est parce que la plupart des problèmes sur lesquels on peut tester les IA sont déjà présents avec leur solution sur Internet, et donc potentiellement dans leur corpus d’entraînement, que l’ingénieur français François Chollet a conçu la batterie de tests ARC, destinée spécifiquement à tester la capacité à résoudre des problèmes nouveaux et difficiles. Il en a même fait une compétition annuelle dotée d’un million de dollars. Pour l’instant, force est de constater que les résultats des IA actuelles à ces épreuves restent modestes. Et pourtant, les tests ARC ne prétendent même pas sonder l’ensemble de l’intelligence humaine et ne constituent donc pas une validation de l’intelligence artificielle générale.
De fait, l’intelligence humaine réside aussi dans des capacités cognitives qui ne relèvent pas du raisonnement formel, et qui sont pourtant loin d’être triviales. Les difficultés des systèmes de vision artificielle – équipant notamment les voitures autonomes – à reconnaître les objets de manière fiable dans différents contextes en témoignent. Dès 2014, le chercheur américain Gary Marcus proposait une mise à jour du test de Turing : être capable de regarder n’importe quelle vidéo inédite et de répondre de manière correcte à des questions sur son contenu. Par exemple : pour quelle raison un personnage A dit telle chose à tel moment à un personnage B ? En 2025, sa conclusion reste la même : aucun système n’est capable de regarder un épisode des Simpson et de comprendre quand il faut rire. Une tâche pourtant à la portée de la plupart des adolescents.
Les systèmes hybrides, futur de l’IA ?
Aujourd’hui, certains créateurs des LLM eux-mêmes doutent qu’ils puissent atteindre un jour l’intelligence artificielle générale, quelle que soit la taille de leur corpus d’entraînement. Mais nombre des limites soulignées sont propres aux LLM. Cela fait des décennies que des programmes spécialisés savent compter et calculer de manière exacte bien plus rapidement que nous, ou même démontrer des théorèmes mathématiques. D’autres programmes savent jouer aux échecs ou au go mieux que les meilleurs joueurs humains, piloter un avion, reconnaître la parole, ou encore sonder des bases de connaissances pour répondre toujours juste sur tous les faits connus.
Aucun de ces programmes n’est un LLM. Mais ils pourraient être des modules dans lesquelles les LLM pourraient piocher afin de donner des réponses fiables, plutôt que juste des séquences de mots plausibles. Si l’intelligence artificielle générale peut être atteinte, ce sera sans doute grâce à des systèmes hybrides combinant des programmes spécialisés excellant chacun à leur tâche avec la puissance linguistique des LLM qui facilite tant les interactions avec les humains.
Franck Ramus, chercheur au CNRS et à l’Ecole normale supérieure (Paris)
Source link : https://www.lexpress.fr/sciences-sante/lintelligence-artificielle-est-elle-sur-le-point-de-depasser-lintelligence-humaine-PUSQO5B7CNBENHTXNVEMDIDCHQ/
Author : Franck Ramus
Publish date : 2025-09-28 06:30:00
Copyright for syndicated content belongs to the linked Source.