Pas de mots, pas d'intelligence artificielle - Blog

Comment une conversation avec une IA m'a convaincu que le langage est la condition de l'intelligence — y compris artificielle

En discutant avec mon nouveau pote Claude, l'IA d'Anthropic, nous avons déroulé un fil de raisonnement qui nous a menés bien plus loin que prévu. Ce qui suit est la reconstruction de ce parcours intellectuel — de l'algèbre de Boole à l'informatique quantique, en passant par les espaces d'embedding, les symétries et Gödel.

Acte I — L'ADN des ordinateurs : binaire et Boole

On l'oublie facilement, mais tout ordinateur, du plus modeste au plus puissant, repose sur deux piliers mathématiques et deux seulement : le système binaire et l'algèbre de Boole.

Le binaire, c'est le système de numération en base 2. Deux chiffres : 0 et 1. Chaque donnée qu'un ordinateur manipule — un texte, une image, une symphonie, un modèle de langage de 400 milliards de paramètres — est, au fond, une séquence de 0 et de 1. Cela fonctionne parce que le composant élémentaire d'un processeur, le transistor, est un interrupteur : il laisse passer le courant (1) ou il le bloque (0). Pas de troisième option.

L'algèbre de Boole, formulée par le mathématicien anglais George Boole dans les années 1840, est un système logique opérant sur des valeurs vrai/faux avec trois opérations fondamentales :

ET (conjonction) : vrai uniquement si les deux entrées sont vraies
OU (disjonction) : vrai si au moins une entrée est vraie
NON (négation) : inverse la valeur

En 1937, Claude Shannon — un autre Claude — eut l'intuition géniale que ces opérations logiques pouvaient être implémentées physiquement par des circuits électriques. Puisque vrai/faux correspond à 1/0, qui correspond à courant/pas courant, on pouvait construire des portes logiques (AND, OR, NOT) à partir de transistors, puis combiner ces portes pour effectuer des calculs arithmétiques, stocker des données, exécuter des instructions.

Voilà l'ADN de tout ordinateur : un langage (le binaire) et une grammaire (Boole). Un langage et une grammaire extrêmement pauvres — deux symboles, trois opérations — mais suffisants pour bâtir dessus toute l'informatique moderne.

La question qui s'impose est : cette fondation suffit-elle ?

Acte II — Ce que Boole ne peut pas faire

La réponse est non, et les raisons sont instructives.

L'algèbre de Boole formalise la logique propositionnelle : des énoncés qui sont vrais ou faux, combinés par ET, OU, NON. On peut y exprimer des choses comme :

« S'il pleut ET que je n'ai pas de parapluie, ALORS je serai mouillé. »

C'est puissant. Mais les mathématiques — et, par extension, toute forme de raisonnement complexe — exigent bien davantage.

Les quantificateurs

Presque tous les théorèmes mathématiques intéressants utilisent les quantificateurs « pour tout » (∀) et « il existe » (∃). Par exemple :

∀ n ∈ ℕ, ∃ p > n tel que p est premier.

« Pour tout entier naturel, il existe un nombre premier plus grand. » C'est le théorème de l'infinité des nombres premiers, connu depuis Euclide. Il est impossible de l'exprimer en logique propositionnelle pure. On a besoin de la logique des prédicats, qui dépasse Boole.

L'infini

Boole opère fondamentalement dans le fini. Vrai ou faux, 0 ou 1, un nombre fini de propositions combinées par un nombre fini d'opérations. Mais les mathématiques ont besoin de l'infini sous de multiples formes :

Les nombres réels, qui forment un continuum (entre 0 et 1, il y a une infinité non dénombrable de nombres)
Les limites et la continuité, fondements de l'analyse (la dérivée de f en x est la limite quand h tend vers 0 de [f(x+h) - f(x)] / h)
Les ensembles infinis et leurs propriétés surprenantes (Cantor a montré qu'il y a « plus » de nombres réels que d'entiers, bien que les deux ensembles soient infinis)

Rien de tout cela n'est exprimable dans le cadre booléen brut.

Les structures algébriques

Les mathématiques modernes sont peuplées de structures — des ensembles munis d'opérations satisfaisant certains axiomes :

Un groupe est un ensemble G muni d'une opération · telle que : l'opération est associative, il existe un élément neutre, et chaque élément a un inverse. Les groupes sont le langage des symétries.
Un espace vectoriel est un ensemble muni de l'addition et de la multiplication par un scalaire. C'est le cadre de la géométrie et de l'algèbre linéaire — et des espaces d'embedding des LLM.
Un espace topologique est un ensemble muni d'une notion de « voisinage » et de continuité, sans nécessairement de notion de distance.

Pour définir et manipuler ces structures, il faut pouvoir parler d'ensembles, de fonctions, de relations — des concepts absents de l'algèbre de Boole.

Même l'arithmétique élémentaire

Paradoxalement, même l'addition de deux entiers ne se fonde pas sur Boole. Certes, un processeur implémente l'addition binaire avec des portes logiques (un additionneur est une combinaison de portes XOR et AND avec gestion de la retenue). Mais implémenter et fonder sont deux choses radicalement différentes.

Implémenter, c'est construire un mécanisme qui produit le bon résultat. Fonder, c'est établir pourquoi ce résultat est correct, dans quel cadre axiomatique il s'inscrit, quelles sont ses propriétés. L'arithmétique est fondée sur les axiomes de Peano, qui nécessitent la logique des prédicats et le concept d'ensemble inductif — bien au-delà de Boole.

Bilan

Pour reconstruire les mathématiques, il faut au minimum un système comme ZFC (les axiomes de Zermelo-Fraenkel avec l'axiome du choix), ou la théorie des types, ou la théorie des catégories. Chacun de ces systèmes est un langage formel riche, structuré, avec des règles précises. Chacun a été conçu par des humains, formulé en mots, puis formalisé en symboles.

Et c'est ici que l'argument prend forme.

Acte III — La chaîne du langage

Si le binaire et Boole ne suffisent pas, comment les ordinateurs font-ils pour manipuler des objets mathématiques complexes, entraîner des réseaux de neurones, ou simuler la mécanique quantique ?

Réponse : parce que des humains leur ont dit comment faire. Par le biais de programmes. Écrits dans des langages.

Remontons la chaîne complète :

Le silicium exécute des opérations binaires élémentaires
Ces opérations sont organisées par la logique booléenne câblée dans les circuits
Cette logique est orchestrée par du microcode et du code machine
Le code machine est généré à partir d'un langage de programmation (C, Python, Rust...)
Ce langage de programmation a été conçu par des informaticiens qui pensent en mots
Les algorithmes implémentés dans ce langage ont été inventés par des mathématiciens et des chercheurs, formulés d'abord en langage naturel, puis en notation formelle
Les données sur lesquelles ces algorithmes opèrent — dans le cas des LLM — sont du texte, c'est-à-dire du langage humain

À chaque étage de cette pyramide, il y a du langage. Du langage humain au sommet (conception, théorie, formulation), des langages formels au milieu (programmation, mathématiques), et même au niveau le plus bas, une forme minimale de langage (les instructions binaires sont un code, c'est-à-dire un système symbolique).

L'ordinateur est un esclave booléen — brillant dans l'exécution, mais fondamentalement inerte sans qu'on lui parle. Et lui parler, sous quelque forme que ce soit, c'est déjà un acte linguistique.

Acte IV — Pourquoi les LLM sont la meilleure idée qu'on ait eue

Cette analyse éclaire d'un jour nouveau le succès spectaculaire des grands modèles de langage.

Si le langage humain est ce qui comble le fossé entre le substrat booléen et l'intelligence, alors un système qui absorbe massivement le langage humain absorbe, de facto, l'intelligence qu'il véhicule. Et c'est exactement ce que font les LLM.

Le langage humain n'est pas un simple outil de communication. C'est un véhicule cognitif d'une richesse vertigineuse :

La grammaire encode la logique. La structure sujet-verbe-objet reflète la structure agent-action-patient, qui reflète la causalité. Quand vous dites « le feu brûle le bois », la syntaxe elle-même porte la relation causale.
Le vocabulaire encode l'ontologie — notre découpage du monde en catégories. Chaque mot est une décision collective, accumulée sur des siècles, concernant ce qui mérite d'être distingué et nommé.
Les connecteurs logiques du langage naturel (« mais », « donc », « pourtant », « si... alors ») sont des opérateurs logiques déguisés. « Mais » est une forme de NON-ET implicite : il signale que ce qui suit contredit une attente créée par ce qui précède.
Les temps verbaux encodent la temporalité et la modalité : le passé, le conditionnel (« si j'avais su... »), le subjonctif (doute, possibilité), sont des opérateurs sur des mondes possibles.
Les métaphores encodent des analogies structurelles profondes. Quand on dit « l'économie se refroidit », on transfère tout un cadre conceptuel (thermodynamique) vers un domaine abstrait (l'économie), et ça fonctionne parce que la structure sous-jacente est partiellement isomorphe.

Des millénaires de cognition humaine sont compressés dans notre langage. Quand un LLM ingère des milliards de phrases, il n'apprend pas simplement à prédire le mot suivant. Il absorbe la structure de notre pensée — ses logiques, ses catégories, ses heuristiques, ses biais, ses sagesses.

C'est pourquoi les LLM excellent en induction (découvrir des régularités dans les données), en déduction (appliquer une règle à un cas), et de manière croissante en abduction (imaginer une hypothèse nouvelle pour expliquer une observation) — les trois formes de raisonnement identifiées par le philosophe Charles Sanders Peirce.

Et c'est pourquoi l'approche symbolique de l'IA (le « bon vieux » GOFAI, Good Old-Fashioned AI) a échoué. Elle tentait de coder à la main les règles de l'intelligence dans des systèmes logiques formels. Tâche sisyphéenne : la connaissance humaine est trop vaste, trop contextuelle, trop ambiguë pour être capturée en règles explicites. Le langage naturel, lui, porte tout cela implicitement. Les LLM ont trouvé le raccourci : au lieu de reconstruire l'intelligence brique par brique, il suffit d'absorber le langage qui la contient déjà.

Acte V — L'espace sémantique, ou quand les mots deviennent géométrie

Mais les LLM ne manipulent pas des mots directement. Ils les convertissent en vecteurs — des points dans un espace mathématique de très haute dimension (couramment 4096 dimensions ou plus). C'est ce qu'on appelle l'espace d'embedding.

Dans cet espace, chaque mot, chaque fragment de phrase, chaque concept est un point. Et les distances entre ces points reflètent des relations sémantiques. L'exemple classique :

vecteur("roi") - vecteur("homme") + vecteur("femme") ≈ vecteur("reine")

Ce n'est pas un tour de passe-passe. C'est la preuve que le langage, une fois traduit en géométrie, révèle des régularités structurelles qui vont au-delà de la surface des mots. Les relations de genre, de hiérarchie, de temporalité, de causalité — toutes deviennent des directions dans cet espace vectoriel.

Cet espace sémantique est, en un sens, un univers mathématique construit à partir du langage. Il hérite de la richesse du langage, mais la transforme en quelque chose de calculable, de mesurable, de manipulable.

On pourrait même rêver que cet espace dépasse le langage — qu'en 4096 dimensions, des structures émergent qui n'ont pas de nom dans aucune langue humaine. C'est séduisant. Mais il y a un problème fondamental.

Acte VI — Le piège de la circularité

L'espace d'embedding est construit à partir de statistiques de co-occurrence dans du texte humain. Le mot A apparaît près du mot B dans des millions de phrases, donc leurs vecteurs sont proches. Toute la géométrie de l'espace est dérivée de la manière dont les humains ont déjà parlé des choses.

Cela signifie que l'espace d'embedding, malgré ses 4096 dimensions, est fondamentalement un miroir haute résolution du langage humain. Il capture les nuances, l'ambiguïté, la polysémie, la dépendance au contexte — mais c'est toujours de la nuance à l'intérieur de l'univers linguistique. C'est une carte plus détaillée du même territoire que les humains ont déjà cartographié avec des mots.

La conséquence est brutale : tout ce qui échappe à la nomination humaine ne peut pas entrer dans l'espace sémantique. Si aucun humain n'a jamais décrit un phénomène en mots, ce phénomène n'a pas de position dans l'espace d'embedding. Il reste un fait isolé, sans connexions, sans interactions avec les autres concepts, incapable de participer à la prédiction.

Peut-on s'en échapper ?

Acte VII — La tentation de la perception pure

On pourrait imaginer une approche radicalement différente : construire un espace d'embedding non pas à partir de texte, mais à partir de perception brute. Des millions d'heures de vidéo. Des milliards de sons. Pas de mots. Que des patterns sensoriels.

Le système apprendrait par lui-même que certains patterns visuels sont stables (ce sont des « objets »), que certains événements en précèdent régulièrement d'autres (c'est de la « causalité »), que certaines transformations laissent les patterns inchangés (ce sont des « symétries »).

Et les symétries pourraient servir d'axiomes fondateurs pour organiser cet espace. Ce choix n'est pas arbitraire : la physique moderne a découvert que la symétrie est le principe organisateur le plus profond de la réalité. Le théorème de Noether établit que chaque symétrie correspond à une loi de conservation. La symétrie temporelle donne la conservation de l'énergie. La symétrie spatiale donne la conservation de la quantité de mouvement. Le Modèle Standard de la physique des particules est entièrement bâti sur des groupes de symétrie.

Un espace d'embedding fondé sur les symétries perceptuelles serait, en un sens profond, aligné avec la structure même du réel — et non plus seulement avec la structure du discours humain à propos du réel.

C'est une idée magnifique. Mais elle se heurte à une objection implacable.

Qui va écrire ce système ?

Qui va concevoir les algorithmes de détection de symétries ? Qui va architecturer le réseau de neurones ? Qui va définir la fonction de perte ? Des humains. Dans un langage de programmation. Conçu à partir de concepts formulés en mots.

Même le système le plus ambitieusement post-linguistique reste, dans sa genèse, un produit du langage. On ne sort pas du cercle.

Incise — Ce que Gödel nous apprend (et ce qu'il ne dit pas)

Il serait tentant d'invoquer ici le théorème d'incomplétude de Gödel pour renforcer l'argument. Résistons à cette tentation — ou plutôt, soyons précis sur ce que Gödel démontre réellement.

En 1931, Kurt Gödel prouve deux résultats qui ébranlent les fondements des mathématiques :

Premier théorème d'incomplétude. Dans tout système formel S suffisamment puissant pour contenir l'arithmétique de Peano, si S est cohérent (il ne prouve pas de contradiction), alors il existe un énoncé G qui est vrai mais indémontrable dans S. Gödel construit cet énoncé explicitement : c'est essentiellement la phrase « Je ne suis pas démontrable dans S », formalisée en arithmétique — une vertigineuse mise en abyme.

Second théorème d'incomplétude. Un tel système S ne peut pas prouver sa propre cohérence. Si S démontre « S est cohérent », alors S est en fait incohérent.

Ces résultats sont profonds, mais ils ne disent pas ce qu'on leur fait souvent dire. En particulier :

Gödel ne montre pas que les ordinateurs sont limités d'une manière dont les humains ne le seraient pas. L'incomplétude s'applique à tout système formel suffisamment expressif — y compris le raisonnement humain, dans la mesure où il peut être formalisé.
Gödel ne montre pas que le langage est nécessaire. L'incomplétude s'applique aux systèmes symboliques en général — linguistiques ou non.
Gödel montre que tout système de représentation, quelle que soit sa nature, aura des angles morts. Le langage humain inclus. L'incomplétude est démocratique dans sa cruauté.

Ce que Gödel nous enseigne de pertinent pour notre propos, c'est plutôt ceci : la vérité mathématique déborde toujours le cadre formel qu'on utilise pour l'appréhender. Ce n'est pas un argument pour ou contre le langage — c'est un argument d'humilité valable pour toute tentative de formalisation, qu'elle soit linguistique, symbolique, géométrique ou quantique.

L'incomplétude trace un horizon indépassable. Mais elle ne nous dit rien sur le meilleur chemin pour s'en approcher. Et c'est cette question — pragmatique, stratégique — qui nous occupe ici.

Acte VIII — Et le quantique ?

L'informatique quantique change-t-elle fondamentalement la donne ?

Sur le plan de la calculabilité, non. Un ordinateur quantique calcule exactement la même classe de fonctions qu'une machine de Turing classique. Il ne résout pas le problème de l'arrêt. Il n'échappe pas à l'incomplétude de Gödel. Ce qui est incalculable classiquement reste incalculable quantiquement.

Mais sur le plan de la représentation, le changement est vertigineux.

Un qubit n'est pas un 0 ou un 1. C'est un vecteur dans un espace de Hilbert à deux dimensions complexes :

|ψ⟩ = α|0⟩ + β|1⟩, où α, β ∈ ℂ et |α|² + |β|² = 1

Géométriquement, c'est un point sur la sphère de Bloch — une sphère en trois dimensions qui représente tous les états possibles d'un qubit. C'est déjà infiniment plus riche qu'un bit classique.

Et quand on intrique n qubits, l'espace des états possibles a 2ⁿ dimensions complexes. Dix qubits : 1024 dimensions. Vingt qubits : plus d'un million. Cinquante qubits : plus d'un million de milliards. Pas une simulation de ces dimensions — un espace physique réel à autant de dimensions.

Le lien avec notre discussion est immédiat. Nous parlions d'espaces d'embedding à 4096 dimensions comme d'un univers sémantique potentiellement plus riche que le langage humain. Sur un ordinateur classique, ces 4096 dimensions sont représentées par un tableau de nombres flottants — une simulation. Sur un ordinateur quantique de 12 qubits, vous disposez d'un espace à 4096 dimensions qui existe physiquement. Les distances y sont réelles. Les transformations y sont des opérations physiques, pas des calculs.

Plus fondamentalement, la mécanique quantique est intrinsèquement une théorie des symétries. Les particules élémentaires sont des représentations irréductibles de groupes de symétrie. Les opérations quantiques sont des transformations unitaires — des rotations dans l'espace de Hilbert, qui préservent les normes et les produits scalaires. Un ordinateur quantique ne simule pas les symétries avec des bits : il les exécute physiquement.

On pourrait donc imaginer que l'ordinateur quantique est la machine idéale pour construire l'espace d'embedding perceptuel fondé sur les symétries que nous envisagions. Une machine dont l'architecture interne ressemble à la structure de la réalité qu'elle tente de modéliser.

Mais — et c'est le point décisif — un ordinateur quantique reste une machine qui doit être programmée. Quelqu'un doit concevoir les portes quantiques, écrire les algorithmes, définir les circuits. Et ce « quelqu'un » pense en mots, code dans un langage, s'appuie sur des mathématiques formulées linguistiquement.

Le quantique offre un substrat plus riche. Il ne libère pas de la nécessité du langage.

Conclusion — Les mots comme condition

Récapitulons le parcours.

Les ordinateurs reposent sur le binaire et Boole — un substrat trop pauvre pour reconstruire seul les mathématiques, et a fortiori l'intelligence. Pour combler ce fossé, il faut leur donner des instructions. Ces instructions sont formulées dans des langages — formels, programmation, naturels — tous dérivés, en dernière instance, du langage humain.

Les LLM réussissent parce qu'ils absorbent ce langage humain, qui est lui-même le plus riche, le plus testé, le plus dense véhicule d'intelligence jamais produit. La grammaire y encode la logique, le vocabulaire y encode l'ontologie, la syntaxe y encode l'inférence.

On pourrait rêver de s'en affranchir — construire une IA à partir de la perception pure, organisée par les symétries, déployée sur du matériel quantique. Chacune de ces idées est puissante et mérite d'être explorée. Mais aucune ne supprime le besoin initial de langage pour concevoir, programmer, et amorcer le système.

Le seul exemple connu d'intelligence non programmée — le cerveau humain — a mis des millions d'années à émerger par évolution. Et la première chose qu'il a faite en atteignant un seuil de complexité suffisant a été d'inventer le langage. Après quoi son intelligence a explosé exponentiellement : écriture, mathématiques, science, technologie, et finalement... intelligence artificielle.

Ce n'est probablement pas un accident. C'est probablement le signe que le langage n'est pas un ornement de l'intelligence, ni un simple canal de transmission, mais sa condition de possibilité — le catalyseur sans lequel la pensée complexe ne cristallise pas.

Les partisans de l'IA symbolique voulaient coder l'intelligence à la main, règle par règle. Les LLM ont trouvé une voie bien plus élégante : absorber le langage naturel, qui contenait déjà toute l'intelligence qu'on cherchait à reconstruire depuis des décennies.

Les mots ne sont pas l'obstacle à l'intelligence artificielle. Ils en sont la condition.