Attention(Q, K, V) = softmax(Q·K^T / √d_k) · V
La révolution qui a changé l'Intelligence Artificielle
Le mécanisme d'attention est une technique qui permet aux réseaux de neurones de se concentrer sur les parties les plus pertinentes d'une information lors du traitement. Comme l'attention humaine, il permet au modèle de "regarder" certaines parties d'une phrase tout en "traitant" une autre partie.
Imaginez que vous lisez la phrase : "Le chat qui dormait sur le tapis rouge s'est réveillé."
Quand vous lisez "s'est réveillé", votre cerveau fait automatiquement un lien avec "Le chat" (le sujet), même si plusieurs mots les séparent. Vous "portez attention" au bon mot pour comprendre qui s'est réveillé.
C'est exactement ce que fait le mécanisme d'attention ! Il permet au modèle de regarder en arrière (ou en avant) dans la phrase pour trouver les informations pertinentes.
Titre : "Attention Is All You Need"
Auteurs : Vaswani et al. (Google Brain & Google Research)
Date : Juin 2017
Conférence : NeurIPS 2017
Citations : Plus de 100,000+ (un des papiers les plus cités de l'IA)
Ce papier a introduit l'architecture Transformer, qui n'utilise QUE le mécanisme d'attention (sans RNN ni CNN). C'est la base de tous les grands modèles modernes : GPT, BERT, T5, Claude, ChatGPT, etc.
Bahdanau et al. introduisent l'attention pour la traduction automatique, en complément des RNN/LSTM. Le modèle peut maintenant "regarder" différentes parties de la phrase source lors de la génération.
L'équipe de Google propose le Transformer, qui abandonne complètement les RNN et utilise uniquement l'attention. Performance supérieure et entraînement beaucoup plus rapide grâce à la parallélisation.
Google publie BERT (Bidirectional Transformer) et OpenAI publie GPT-2. Les Transformers deviennent le standard pour le NLP.
GPT-3, GPT-4, Claude, PaLM, LLaMA... Tous basés sur l'architecture Transformer avec des mécanismes d'attention. L'attention est devenue la pierre angulaire de l'IA moderne.
Chaque mot est transformé en trois vecteurs :
Q = mot × W_QK = mot × W_KV = mot × W_V
On calcule à quel point chaque mot devrait "prêter attention" aux autres mots.
Score = Q · K^T
Le produit scalaire entre Query et Key donne un score de compatibilité
Plus le score est élevé, plus le mot est pertinent pour le contexte actuel.
On transforme les scores en probabilités (qui somment à 1).
Attention_weights = softmax(Score / √d_k)
Division par √d_k pour stabiliser les gradients
Chaque mot reçoit un poids entre 0 et 1 indiquant son importance.
On combine les Values en utilisant les poids d'attention.
Output = Σ (Attention_weights × V)
Le résultat est une représentation enrichie du mot, tenant compte du contexte !
Attention(Q, K, V) = softmax(Q·K^T / √d_k) · V
Cette formule simple mais puissante est au cœur de tous les modèles Transformer modernes !
Voyons comment l'attention fonctionne sur une vraie phrase. Cliquez sur un mot pour voir à quels autres mots il prête attention.
Cliquez sur un mot ci-dessus pour voir son attention
Cliquez sur un mot pour voir son analyse d'attention
Au lieu d'avoir une seule "tête" d'attention, les Transformers utilisent plusieurs têtes en parallèle. Chaque tête peut se concentrer sur différents aspects de la phrase.
Se concentre sur la grammaire et la structure
Se concentre sur le sens et les concepts
Se concentre sur la proximité des mots
Capture les relations à longue distance
MultiHead(Q, K, V) = Concat(head₁, head₂, ..., head_h) · W_Ooù head_i = Attention(Q·W_i^Q, K·W_i^K, V·W_i^V)
Typiquement h = 8, 12 ou 16 têtes dans les Transformers modernes
Chaque mot de la phrase prête attention aux autres mots de la même phrase.
Phrase : "Le chat dort"
Usage : BERT, GPT (encodage du contexte)
Les mots d'une séquence prêtent attention aux mots d'une autre séquence.
Source : "The cat sleeps"
Target : "Le chat dort"
Usage : Traduction automatique, génération d'images (DALL-E)
Comprend la phrase d'entrée
Génère la phrase de sortie
Contrairement aux RNN qui traitent séquentiellement, l'attention traite tous les mots en parallèle. Entraînement 10-100× plus rapide sur GPU/TPU.
Capture directement les relations entre mots distants dans une phrase, sans limitation de mémoire. Essentiel pour comprendre des textes longs.
Les poids d'attention peuvent être visualisés pour comprendre sur quoi le modèle se concentre. Aide au debugging et à la compréhension.
L'attention fonctionne pour le texte, les images, l'audio, la vidéo... C'est devenu un building block universel de l'IA.
Les Transformers peuvent être agrandis massivement (GPT-4 : ~1.7T paramètres). Performance continue d'améliorer avec la taille.
Permet de combiner texte + images (CLIP, DALL-E), texte + audio (Whisper), ouvrant la voie aux modèles multi-modaux.
Introduction de l'architecture Transformer, qui remplace les RNN/LSTM par un mécanisme d'attention pur. Prouve qu'on peut obtenir de meilleurs résultats plus rapidement sans récurrence ni convolution.
Sur WMT 2014 English-to-German translation :
Ce papier a déclenché une révolution. En 2025, presque tous les modèles d'IA de pointe utilisent l'architecture Transformer ou des variantes. Les auteurs ont littéralement changé le cours de l'IA moderne.
Le mécanisme d'attention permet aux modèles de se concentrer dynamiquement sur les parties pertinentes de l'information. Introduit dans le papier révolutionnaire "Attention Is All You Need" (2017), il est devenu la pierre angulaire de l'IA moderne.
En remplaçant les architectures séquentielles par des connexions parallèles, l'attention a permis :
L'attention n'est pas qu'un mécanisme technique – c'est la révolution qui a rendu possible l'IA conversationnelle moderne !