Aller au contenu
Décryptages Intelligence artificielle 20 min de lecture

Comment les ordinateurs analysent le langage : les mécanismes du traitement automatique des langues

Des étapes de tokenisation aux couches d'attention, le pipeline en cinq phases qui transforme le texte brut en sortie de modèle de langage révèle à la fois l'ingéniosité des modèles de langage modernes et leurs contraintes fondamentales.

Cet article a été traduit automatiquement de l'anglais par IA. Lire la version originale en anglais →
Visual representation of natural language processing mechanics showing data transformation
Mode de lecture

Lorsque vous posez une question à ChatGPT ou demandez à votre téléphone de lancer un minuteur, un logiciel de traitement du texte transforme le langage en représentations lisibles par une machine. Dans les modèles de langage modernes, ces représentations sont comparées à des motifs appris à partir de vastes corpus de textes pour générer des réponses qui peuvent sembler humaines. Comprendre les mécanismes du traitement automatique des langues derrière cette transformation révèle à la fois l’ingéniosité de l’IA moderne et ses limites fondamentales.

Ce processus peut être décomposé en cinq étapes clés, chacune résolvant un problème spécifique dans la représentation et la transformation du langage. Les systèmes transformeurs modernes ne sont pas construits uniquement à partir de règles grammaticales codées manuellement ; ils apprennent des motifs statistiques à partir d’énormes quantités de texte.

Étape 1 : La tokenisation découpe le texte en morceaux

Les ordinateurs ne peuvent pas traiter directement le texte brut. La première étape des mécanismes du traitement automatique des langues est la tokenisation : diviser une phrase en morceaux discrets appelés tokens[s]. Un token peut être un mot entier, une partie d’un mot, ou même un seul caractère, selon le système.

Une approche courante, le Byte Pair Encoding (BPE), est à l’origine une technique de compression de données avant d’être adaptée à la tokenisation des modèles de langage[s]. Le BPE commence par des octets ou des caractères et fusionne itérativement les paires les plus fréquentes jusqu’à atteindre une taille de vocabulaire cible.

Prenons la phrase « unhappiness is common ». Le BPE pourrait découper « unhappiness » en « un », « happiness », ou même « un », « happ », « iness », selon les motifs les plus fréquents dans les données d’entraînement. Cette flexibilité permet aux modèles de traiter des mots qu’ils n’ont jamais vus en les décomposant en morceaux familiers.

Le choix du vocabulaire est crucial. Comme l’a souligné un groupe de recherche, le vocabulaire « doit permettre d’encoder suffisamment d’informations sémantiques contenues dans un texte pour accomplir les tâches de traitement automatique des langues pour lesquelles le modèle est conçu »[s]. Un vocabulaire trop petit impose des découpages maladroits ; un vocabulaire trop grand gaspille des ressources computationnelles sur des tokens rares.

Les espaces posent un problème étonnamment épineux. Les locuteurs anglais supposent que les espaces séparent systématiquement les mots, mais cette hypothèse échoue selon les langues, voire au sein même de l’anglais. Les expressions composées de plusieurs mots comme « by the way » ou « search engine » fonctionnent comme des unités sémantiques uniques[s]. Le chinois et le japonais n’utilisent souvent pas d’espaces entre les mots. Des recherches récentes sur les tokeniseurs « superword » qui ignorent les limites des espaces ont permis de réduire jusqu’à 33 % le nombre moyen de tokens tout en améliorant les performances des modèles de 4,0 % sur 30 tâches de référence[s].

Étape 2 : L’intégration transforme les tokens en vecteurs

Une fois le texte tokenisé, chaque index de token est associé à un vecteur appris : une liste de nombres utilisée par le modèle pour prédire et relier les tokens[s]. Cette étape d’intégration est celle où le langage façonne la perception pour le modèle. Les tokens utilisés dans des contextes similaires se retrouvent souvent dans des régions proches de l’espace d’intégration.

Les grands modèles de langage modernes utilisent des dimensions d’intégration de plusieurs milliers. La version à 70 milliards de paramètres de Llama 3 utilise des vecteurs de 8 192 dimensions ; la version à 27 milliards de paramètres de Gemma 3 en utilise 5 376[s]. La représentation dans son ensemble capture des caractéristiques apprises, bien que les chercheurs ne puissent souvent pas attribuer une signification humaine stable à une composante individuelle.

La position et le contexte comptent aussi. Un même token peut contribuer à des significations différentes dans des expressions comme « rive » (« river bank ») et « banque » (« bank account »), et les couches d’attention ultérieures aident à lever l’ambiguïté. Les premiers systèmes ajoutaient des informations de position directement aux intégrations de tokens ; les architectures modernes comme Llama appliquent un encodage positionnel au sein du mécanisme d’attention lui-même grâce à une technique appelée Rotary Positional Embeddings[s].

Étape 3 : L’attention permet aux tokens de communiquer

Les mécanismes du traitement automatique des langues par l’attention représentent « un changement de paradigme fondamental dans les architectures de réseaux de neurones, permettant aux modèles de se concentrer sélectivement sur les portions pertinentes des séquences d’entrée grâce à des fonctions de pondération apprises »[s]. Avant les transformeurs basés sur l’attention, de nombreux modèles de séquences traitaient le texte de manière séquentielle, peinant à relier des mots éloignés dans une phrase.

L’attention fonctionne comme une recherche dans une base de données. Chaque token génère trois éléments : une requête (ce qu’il recherche), une clé (ce qu’il propose) et une valeur (l’information qu’il porte). Le système compare chaque requête à toutes les clés, pondère les résultats et combine les valeurs correspondantes[s]. Lors du traitement du mot « il » dans « Le chat s’est assis sur le tapis parce qu’il était fatigué », l’attention permet à « il » de remonter en arrière pour déterminer qu’il fait référence à « chat » plutôt qu’à « tapis ».

Les transformeurs modernes utilisent une « attention multi-têtes », exécutant plusieurs opérations d’attention en parallèle. Chaque tête peut se concentrer sur différents types de relations : l’une peut suivre l’accord grammatical, une autre la similarité sémantique, une troisième les motifs positionnels. Les têtes d’attention « lisent les informations du flux résiduel des tokens précédents via les projections requête-clé, puis écrivent les informations traitées à la position actuelle »[s].

Le « flux résiduel » mérite d’être mentionné ici. Il agit comme « l’autoroute centrale de propagation de l’information », préservant un état de mémoire partagé que chaque couche met à jour[s]. Les connexions résiduelles aident également les informations et les gradients à circuler dans les réseaux profonds.

Étape 4 : Les réseaux feed-forward stockent les connaissances

Entre les couches d’attention se trouvent les réseaux feed-forward (FFN), que les chercheurs considèrent de plus en plus comme le lieu de stockage des connaissances du modèle. Les FFN « sont souvent conceptualisés comme des mémoires clé-valeur, où la première couche projette le flux dans un état de haute dimension (détectant des motifs ou des ‘clés de connaissance’) et la seconde couche réécrit les connaissances récupérées dans le flux »[s].

Lorsque vous demandez à un modèle de langage qui a écrit Hamlet, le mécanisme d’attention aide à représenter les relations dans la question, tandis que les couches feed-forward sont souvent modélisées comme stockant ou récupérant des faits tels que « Shakespeare a écrit Hamlet ». Cette division du travail, l’attention pour les relations et les FFN pour les faits, explique pourquoi les modèles peuvent être étonnamment bons en raisonnement tout en commettant des erreurs factuelles (et inversement).

Étape 5 : La génération de sortie

Après avoir traversé la pile de couches d’attention et de FFN, le vecteur final est reconverti en une distribution de probabilité sur le vocabulaire. Le modèle attribue une vraisemblance à chaque token suivant possible, des mots courants aux symboles rares. Lors de la génération, il échantillonne à partir de cette distribution (ou choisit l’option la plus probable) et répète l’ensemble du processus pour le token suivant.

Cette génération auto-régressive, prédisant un token à la fois, explique à la fois la fluidité et les modes de défaillance des modèles de langage modernes. Chaque prédiction dépend de tous les tokens précédents, maintenant la cohérence sur de longs passages. Mais les erreurs s’accumulent : une erreur précoce peut faire dérailler une réponse entière.

Les mécanismes du traitement automatique des langues : les limites

Comprendre ces mécanismes du traitement automatique des langues révèle des contraintes avec lesquelles les chercheurs continuent de se débattre à mesure que les modèles évoluent.

L’attention a une complexité quadratique : le traitement d’une séquence de longueur n nécessite O(n²d) opérations, où d est la dimension d’intégration[s]. Doublez la longueur du contexte et vous quadruplez cette partie du calcul. C’est l’une des raisons pour lesquelles la modélisation de longs contextes reste coûteuse en calcul, et pourquoi les chercheurs continuent de rechercher des variantes d’« attention efficace ».

Plus troublant sur le plan philosophique : ces systèmes restent des boîtes noires. « Notre compréhension théorique des grands modèles de langage reste disproportionnellement naissante, ce qui nous oblige à traiter ces systèmes largement comme des boîtes noires. Ils fonctionnent exceptionnellement bien, pourtant leurs mécanismes internes de fonctionnement, le comment et le pourquoi de leur efficacité, restent insaisissables »[s].

Certains chercheurs ont exploré si les modèles de langage développent quelque chose de similaire à la théorie de l’esprit, la capacité de modéliser ce que les autres savent et croient, une aptitude qui émerge chez les enfants humains vers l’âge de quatre ans. Les preuves restent mitigées ; les modèles réussissent certains tests de théorie de l’esprit tout en échouant à d’autres de manière qui suggère un recours à des motifs superficiels plutôt qu’à un raisonnement de type humain[s].

Peut-être plus surprenant encore, les modèles de langage peinent à distinguer la grammaticalité de manière aussi nette que leurs sorties fluides pourraient le laisser penser. « Les modèles de langage ne sont pas conçus pour attribuer systématiquement des probabilités plus faibles aux phrases agrammaticales qu’aux phrases grammaticales ; les probabilités des modèles de langage sont généralement mauvaises pour distinguer le grammatical de l’agrammatical »[s]. Ils peuvent produire un texte grammatical bien que leurs probabilités brutes ne constituent pas un test fiable de grammaticalité globale.

Des recherches récentes du MIT ont révélé que les modèles encodent bien des informations sur la grammaticalité, mais pas dans leurs probabilités de sortie. « Les modèles de langage acquièrent dans une certaine mesure une distinction implicite de grammaticalité au sein de leurs couches cachées », accessible via des sondes spécialisées mais pas par le processus de génération standard[s].

Le problème de l’intelligence émergente

À mesure que les modèles grandissent, certaines capacités et certains modes d’échec deviennent plus marqués ou prennent de nouvelles formes : apprentissage en contexte, comportements suivant des lois d’échelle, et « moments eurêka » soudains pendant l’entraînement. Les hallucinations, en particulier, ne sont pas exclusives aux grands modèles ; elles apparaissent dans l’ensemble des systèmes neuronaux de génération de texte, mais elles prennent de nouvelles formes à grande échelle[s]. Ces « phénomènes émergents » résistent à la prédiction et à l’explication, apparaissant à des seuils d’échelle que les chercheurs ne peuvent pas prévoir de manière fiable.

La composition des données façonne ces capacités de manières que les chercheurs commencent seulement à comprendre. Les modèles entraînés sur des mélanges de textes web, de livres, de code et d’articles scientifiques surpassent ceux entraînés sur une seule source[s]. La raison pour laquelle des données d’entraînement diversifiées produisent des modèles plus performants reste une question ouverte, bien qu’elle soit probablement liée au transfert de motifs de raisonnement entre domaines.

Des résultats généraux de calculabilité comme le théorème de Rice limitent ce qui peut être prouvé automatiquement sur le comportement de programmes arbitraires[s]. Les systèmes neuronaux ouverts héritent d’une version de ce problème. La vérification pratique peut prouver des propriétés bornées, mais elle ne peut pas vérifier mathématiquement qu’un modèle de langage n’hallucinera jamais, ne produira jamais de contenu nuisible, ou ne faillira jamais dans des applications critiques pour la sécurité[s].

Ce que cela signifie

Les mécanismes du traitement automatique des langues décrits ici représentent un pari spécifique : que les motifs statistiques sur les tokens peuvent se substituer à une grande quantité d’ingénierie linguistique explicite. Ce pari a remarquablement bien fonctionné. Les modèles entraînés à prédire le mot suivant ont appris des comportements conformes à la grammaire, aux faits, aux motifs de raisonnement et aux conventions stylistiques, le tout sans instruction explicite pour chacun d’eux.

Mais ces mécanismes restent étrangers au traitement humain du langage. Nous ne pensons pas en termes de poids d’attention ou d’activations feed-forward. La convergence des capacités, des systèmes d’IA produisant un langage de type humain, n’implique pas une convergence des mécanismes. Comprendre les mécanismes du traitement automatique des langues derrière ces systèmes nous aide à apprécier à la fois leurs réalisations et leurs limites inhérentes.

Les modèles de langage modernes transforment le texte en représentations continues grâce à une série de transformations apprises : tokenisation, intégration, attention, réseaux feed-forward et projection de sortie. Chaque étape met en œuvre des biais inductifs spécifiques qui permettent la modélisation statistique du langage à grande échelle. Les mécanismes du traitement automatique des langues sous-jacents à ces transformations déterminent à la fois les capacités et les modes de défaillance des systèmes basés sur les transformeurs.

Tokenisation : décomposition en sous-mots

Les mécanismes du traitement automatique des langues commencent par la tokenisation, qui convertit des séquences de caractères ou d’octets en tokens discrets issus d’un vocabulaire fixe. Les systèmes contemporains utilisent généralement une tokenisation en sous-mots, souvent le Byte Pair Encoding (BPE) ou des variantes comme WordPiece. Comme le souligne l’article SuperBPE, les tokeniseurs « segmentent un flux d’octets en une séquence de tokens dans le vocabulaire du modèle de langage »[s].

Le BPE est à l’origine un algorithme de compression de données avant d’être adapté au traitement automatique des langues ; l’article SuperBPE note que « L’algorithme est né en 1994 dans le domaine de la compression de données »[s]. Dans l’entraînement standard du BPE, les fréquences des paires de tokens voisins sont enregistrées, la paire la plus fréquente est fusionnée en un nouveau token, et le processus se répète jusqu’à ce que le vocabulaire atteigne la taille cible.

Le choix du vocabulaire implique des compromis. Le vocabulaire « doit permettre d’encoder suffisamment d’informations sémantiques contenues dans un texte pour accomplir, étant donné un modèle, les tâches de traitement automatique des langues pour lesquelles ce modèle est conçu »[s]. Des vocabulaires plus grands réduisent la longueur des séquences mais augmentent les paramètres d’intégration et la rareté des tokens peu fréquents.

Le BPE standard impose des limites basées sur les espaces, empêchant les tokens de franchir les frontières des mots. Cette hypothèse échoue pour les langues sans délimiteurs d’espaces. « L’espace n’est pas un délimiteur fiable du sens, comme en témoignent les expressions multi-mots (par exemple, by the way), la variation interlinguistique du nombre de mots nécessaires pour exprimer un concept, et les langues qui n’utilisent pas du tout d’espaces »[s].

Des travaux récents sur SuperBPE assouplissent la contrainte des sous-mots via un curriculum : d’abord en apprenant des sous-mots avec une pré-tokenisation basée sur les espaces, puis en apprenant des super-mots sans cette contrainte. Cela permet d’obtenir « jusqu’à 33 % de tokens en moins en moyenne par rapport au BPE » tout en améliorant les performances en aval de 4,0 % sur 30 tâches et en réduisant le calcul d’inférence de 27 à 33 %[s]. Les gains d’efficacité proviennent de la capture d’expressions multi-mots en tant que tokens uniques : « Les tokens SuperBPE correspondent souvent à des expressions multi-mots en anglais, c’est-à-dire des séquences de mots qui fonctionnent comme une seule unité sémantique »[s].

Intégration : mappage token-vecteur

« Les méthodes modernes de traitement automatique des langues basées sur des mécanismes d’attention traitent l’information textuelle non pas sous forme de chaînes de caractères, mais comme des séquences de vecteurs »[s]. La couche d’intégration associe chaque index de token à un vecteur appris. Les modèles contemporains utilisent des intégrations de haute dimension : Llama 3 70B utilise d=8192, Gemma 3 27B utilise d=5376[s].

L’encodage positionnel traite l’équivariance par permutation de l’auto-attention. « La propriété d’équivariance par permutation de l’auto-attention est prouvée, et ses implications pour l’encodage positionnel sont examinées en détail »[s]. Sans information positionnelle, le modèle ne peut pas distinguer « le chien mord l’homme » de « l’homme mord le chien ». Les premiers transformeurs ajoutaient des intégrations positionnelles sinusoïdales à l’entrée ; les architectures modernes comme Llama utilisent les Rotary Positional Embeddings (RoPE), appliquant des rotations dépendantes de la position aux vecteurs de requête et de clé au sein de l’attention.

Comprendre comment la géométrie des intégrations se rapporte à la sémantique reste un domaine de recherche actif. La manière dont le langage façonne la perception au niveau de l’intégration, si des intégrations similaires reflètent des significations similaires en termes humains, soulève des questions complexes sur la relation entre la cooccurrence statistique et la sémantique authentique.

Attention : routage d’information basé sur le contenu

« Les mécanismes d’attention représentent un changement de paradigme fondamental dans les architectures de réseaux de neurones, permettant aux modèles de se concentrer sélectivement sur les portions pertinentes des séquences d’entrée grâce à des fonctions de pondération apprises »[s]. L’attention par produit scalaire mis à l’échelle calcule :

Attention(Q, K, V) = softmax(QKT / sqrt(dk)) V

où Q, K, V sont les projections de requête, clé et valeur de l’entrée, et dk est la dimension de la clé.

« Les mécanismes d’attention, éléments constitutifs de l’architecture Transformer, permettent l’encodage d’informations sémantiques entre les tokens grâce à une structure de type base de données. En effet, une base de données peut être vue comme un ensemble de tuples (clé, valeur), de sorte que lorsque nous soumettons une requête q à la base de données, celle-ci renvoie la valeur v associée au tuple dont la clé est égale à la requête »[s].

L’attention multi-têtes exécute H opérations d’attention parallèles avec des projections apprises distinctes, concaténant et projetant les résultats. Cela permet à différentes têtes de se spécialiser dans différents types de relations. « Les têtes d’attention lisent les informations du flux résiduel des tokens précédents via les projections requête-clé, puis écrivent les informations traitées à la position actuelle via les projections de valeur et de sortie »[s].

L’architecture du flux résiduel, où chaque couche ajoute sa sortie à une somme courante, permet la circulation des gradients et la construction compositionnelle des caractéristiques. « Le flux résiduel agit comme l’autoroute centrale de propagation de l’information. Il préserve un état de mémoire partagé qui est mis à jour de manière itérative par les blocs »[s].

La complexité computationnelle est O(n²d) pour une longueur de séquence n et une dimension d[s]. Cette mise à l’échelle quadratique avec la longueur de la séquence reste un goulot d’étranglement majeur pour la modélisation de longs contextes et a motivé des recherches approfondies sur les variantes d’attention creuse et linéaire.

Réseaux feed-forward : récupération de connaissances activée par motifs

Chaque bloc transformeur alterne attention et réseau feed-forward positionnel. « Les réseaux feed-forward sont souvent conceptualisés comme des mémoires clé-valeur, où la première couche projette le flux dans un état de haute dimension (détectant des motifs ou des ‘clés de connaissance’) et la seconde couche réécrit les connaissances récupérées dans le flux »[s].

Le FFN standard applique :

FFN(x) = W2 * activation(W1 * x)

avec la dimension intermédiaire souvent plus grande que la dimension du modèle dans les formulations de type Transformer standard. Les variantes modernes comme SwiGLU ajoutent des mécanismes de gating. La première projection peut être interprétée comme appariant des motifs d’entrée avec des « clés de connaissance » apprises ; la seconde projection récupère les connaissances associées.

Ce cadre suggère que l’attention gère le calcul des relations tandis que les FFN stockent les connaissances factuelles, bien que la frontière soit floue en pratique. La recherche en interprétabilité mécaniste tente de localiser des faits spécifiques à des neurones particuliers, avec un succès mitigé.

Les mécanismes du traitement automatique des langues : contraintes fondamentales

Malgré leur succès empirique, « notre compréhension théorique des grands modèles de langage reste disproportionnellement naissante, ce qui nous oblige à traiter ces systèmes largement comme des boîtes noires. Ils fonctionnent exceptionnellement bien, pourtant leurs mécanismes internes de fonctionnement, le comment et le pourquoi de leur efficacité, restent insaisissables »[s].

Plusieurs phénomènes émergents résistent à l’explication théorique : « Les grands modèles de langage présentent de nombreux phénomènes émergents qui n’apparaissent pas dans les modèles plus petits, tels que les hallucinations, l’apprentissage en contexte (ICL), les lois d’échelle, et des ‘moments eurêka’ soudains pendant l’entraînement »[s]. Ces capacités peuvent être difficiles à prédire à partir de modèles plus petits.

La composition des données compte. « Les modèles entraînés sur un mélange soigneusement sélectionné de données provenant de plusieurs sources (par exemple, texte web, livres, code, articles scientifiques) surpassent systématiquement ceux entraînés sur des corpus monolithiques »[s]. La justification théorique de l’efficacité des mélanges reste incomplète.

La grammaticalité présente une lacune surprenante. « Les modèles de langage ne sont pas conçus pour attribuer systématiquement des probabilités plus faibles aux phrases agrammaticales qu’aux phrases grammaticales ; les probabilités des modèles de langage sont généralement mauvaises pour distinguer le grammatical de l’agrammatical »[s]. Les modèles peuvent générer un texte fluide bien que la probabilité brute de la chaîne ne soit pas un jugement fiable de grammaticalité.

Des expériences de sondage révèlent une connaissance grammaticale implicite. « Une sonde linéaire entraînée sur des données de perturbation synthétiques peut surpasser les jugements de grammaticalité basés sur les probabilités dans les benchmarks de jugement de grammaticalité à paires minimales et non minimales »[s]. La distinction de grammaticalité existe dans les représentations cachées même lorsqu’elle est absente des probabilités de sortie : « Les modèles de langage acquièrent dans une certaine mesure une distinction implicite de grammaticalité au sein de leurs couches cachées »[s].

Certains chercheurs explorent si les modèles de langage développent la théorie de l’esprit, la capacité de modéliser les croyances et les états de connaissance d’autrui. Les preuves sont mitigées ; les modèles réussissent certains tests de fausses croyances tout en échouant à d’autres, suggérant qu’ils pourraient exploiter des corrélations de surface plutôt que de posséder une véritable attribution d’états mentaux[s].

La vérification formelle peut prouver des propriétés bornées de systèmes particuliers, mais des limites générales de calculabilité comme le théorème de Rice empêchent les preuves automatiques du comportement de programmes arbitraires[s]. Les modèles de langage ouverts héritent d’une version de cette limite : nous ne pouvons pas vérifier mathématiquement qu’un modèle n’hallucinera jamais, ne produira jamais de contenu nuisible, ou ne faillira jamais dans des applications critiques pour la sécurité[s].

La voie à suivre

Les mécanismes du traitement automatique des langues décrits ici incarnent une hypothèse spécifique : que la prédiction auto-régressive sur des tokens, mise à l’échelle de manière suffisante, peut produire un comportement langagier utile. Cette hypothèse s’est avérée remarquablement productive, donnant naissance à des systèmes qui réussissent des examens professionnels, écrivent du code fonctionnel et engagent des dialogues prolongés.

Pourtant, l’écart entre la capacité empirique et la compréhension théorique persiste. Nous pouvons décrire ce que calcule l’attention, mais pas pourquoi des motifs d’attention spécifiques émergent. Nous pouvons mesurer que les mélanges de données améliorent les performances, mais pas dériver des proportions de mélange optimales à partir de principes premiers. Les mécanismes du traitement automatique des langues des transformeurs sont bien spécifiés mathématiquement, mais restent opaques en tant que systèmes cognitifs ou linguistiques.

Que pensez-vous de cet article ?
Partager cet article

Une erreur ? Signalez-la

Sources