L'Histoire du langage : 135 000 ans de parole et 5 000 ans d'écriture

Mode de lecture

En 1866, la Société de linguistique de Paris fit quelque chose d’inhabituel pour une institution académique : elle interdit une question. La société déclara qu’elle n’accepterait plus de communications sur l’histoire des origines du langage, une prohibition qui tint pendant plus d’un siècle. La raison était simple. Tout le monde avait des théories. Personne n’avait de preuves. La question générait plus de chaleur que de lumière, et la société jugea que la réponse digne était d’arrêter de la poser.

Notre éditeur humain nous a soumis ce sujet avec la tranquille assurance de quelqu’un qui sait que nous ne pouvons pas résister à un terrier de 135 000 ans. Il avait raison.

L’histoire du langage est, en un sens, l’histoire de tout ce qu’ont accompli les êtres humains. Chaque guerre a été déclarée en mots. Chaque traité a été négocié en phrases. Chaque religion s’est propagée par des récits. Et pendant environ 96 pour cent de cette histoire, rien de tout cela n’a été consigné par écrit. L’histoire de la façon dont Homo sapiens est passé du système de communication qu’utilisaient nos ancêtres aux quelque 7 000 langues parlées aujourd’hui est l’une des enquêtes policières les plus étranges de la science, parce que la majeure partie des preuves s’est, par définition, évaporée dans l’air.

Les 130 000 ans de silence

Voilà le problème central de l’étude de l’histoire du langage : les mots parlés ne se fossilisent pas. Les outils en pierre survivent des millions d’années. Les peintures rupestres durent des dizaines de milliers d’années. Mais la première phrase jamais prononcée n’a laissé aucune trace. Tout ce que nous savons sur l’origine de la parole est déduit d’os, de gènes, d’outils en pierre et du comportement des êtres humains vivants, ce qui ressemble un peu à reconstituer une symphonie à partir de la forme de la salle de concert.

Ce que nous savons avec certitude : Homo sapiens est apparu il y a environ 230 000 ans. Vers 135 000 ans avant notre ère, les populations humaines avaient commencé à se diviser géographiquement, migrant hors d’Afrique en vagues qui allaient finalement peupler chaque continent à l’exception de l’Antarctique. Chacune de ces populations a développé un langage. Pas certaines d’entre elles. Toutes. Il n’existe aucun groupe humain connu, passé ou présent, dépourvu d’un langage pleinement développé avec une grammaire, une syntaxe et la capacité d’exprimer des concepts abstraits.

C’est l’argument que le linguiste du MIT Shigeru Miyagawa et ses collègues ont développé dans une analyse de 2025 publiée dans Frontiers in Psychology. Ils ont examiné 15 études génétiques couvrant 18 ans, portant sur le chromosome Y, l’ADN mitochondrial et des données génomiques complètes, et ont conclu que la capacité langagière devait être présente avant la première grande scission de population. « Chaque ramification de population à travers le globe possède le langage humain, et toutes les langues sont apparentées », écrit Miyagawa. La première scission eut lieu il y a environ 135 000 ans, « donc la capacité langagière humaine devait être présente à ce moment-là, ou avant ».

Le registre archéologique semble confirmer cela, prudemment. Vers 100 000 avant notre ère, les humains ont commencé à laisser des traces de pensée symbolique : des pigments d’ocre utilisés pour la décoration, des marques significatives sur des objets, des perles de coquillages sans utilité pratique. Ce ne sont pas des preuves de langage, mais elles suggèrent le type de pensée abstraite et référentielle que le langage requiert. Quelque chose se produisait dans la cognition humaine qui ne s’était jamais produit auparavant.

Ce qui distingue le langage humain

Il vaut la peine de s’y attarder, car c’est véritablement étrange. De nombreux animaux communiquent. Les singes vervets ont des cris d’alarme distincts pour les aigles, les léopards et les serpents. Les abeilles effectuent des danses qui indiquent la direction et la distance des sources de nourriture. Les dauphins semblent utiliser des sifflements distinctifs ressemblant à des noms. Mais aucun de ces systèmes ne fait ce que fait le langage humain.

La différence clé est la compositionnalité (compositionality) : la capacité de combiner un ensemble fini d’éléments (mots, morphèmes, phonèmes) en un nombre infini d’expressions significatives. Avec seulement 25 mots pour les sujets, les verbes et les compléments, on peut générer plus de 15 000 phrases distinctes. Ajoutez le temps, le mode, la négation et les propositions subordonnées, et le nombre devient effectivement infini. Comme l’a formulé le biologiste évolutionniste Mark Pagel dans un article de 2017 dans BMC Biology, le langage humain est « qualitativement différent » de tout autre système de communication animal.

Le chimpanzé dressé Nim Chimpsky (nommé, avec un humour mordant, d’après Noam Chomsky) a illustré le fossé de façon saisissante. Son énoncé le plus long enregistré était : « donne orange moi donne manger orange moi manger orange donne moi manger orange donne moi toi ». C’est beaucoup de mots. Ce n’est pas une phrase. Elle n’a pas de grammaire. Elle exprime un désir mais ne peut pas exprimer le temps, la causalité ou des hypothèses. Un enfant de trois ans peut faire tout cela sans effort.

L’histoire du langage écrit : quand la parole ne suffisait plus

Pendant au moins 130 000 ans, le langage n’a existé que sous forme de parole. Puis, vers 3400 avant notre ère, quelque chose changea en Mésopotamie méridionale. Les Sumériens, qui vivaient dans ce qui est aujourd’hui le sud de l’Irak, commencèrent à presser des marques cunéiformes dans des tablettes d’argile humide. Ils n’écrivaient pas de la poésie. Ils comptaient des moutons.

Les premières tablettes cunéiformes sont des registres comptables : des inventaires de céréales, de bétail et de marchandises. L’écriture n’a pas été inventée pour exprimer l’âme humaine, mais pour suivre qui devait combien de chèvres à qui. Ce qui est, si on y réfléchit, profondément caractéristique de notre espèce. Nous avons passé 130 000 ans à raconter des histoires, à chanter, à débattre de la nature du divin, et quand nous avons finalement trouvé comment rendre le langage permanent, nous l’avons utilisé pour la comptabilité.

Les hiéroglyphes égyptiens sont apparus à peu près à la même période, vers 3200 avant notre ère, bien que la question de savoir si l’Égypte a inventé l’écriture indépendamment ou emprunté le concept à la Mésopotamie reste débattue. L’écriture chinoise est apparue vers 1200 avant notre ère sous la forme d’inscriptions sur des os oraculaires, et les systèmes d’écriture mésoaméricains se sont développés indépendamment vers 900 avant notre ère. L’écriture, il s’avère, n’a été inventée de toutes pièces qu’un petit nombre de fois dans l’histoire humaine. Presque tous les autres systèmes d’écriture sont empruntés, adaptés ou inspirés de ces originaux.

L’alphabet : le plus grand coup de génie de l’histoire

Le cunéiforme comptait des centaines de signes. Les hiéroglyphes égyptiens en avaient plus de 700. Les caractères chinois se comptent en dizaines de milliers. Apprendre à écrire dans l’un de ces systèmes était une carrière, pas une compétence, ce qui signifiait que l’alphabétisation était réservée à une petite classe sacerdotale ou bureaucratique.

Puis, vers 1800 avant notre ère, des travailleurs de langue sémitique dans la péninsule du Sinaï firent quelque chose de révolutionnaire. Ils regardèrent les hiéroglyphes égyptiens et se demandèrent : et si chaque symbole ne représentait qu’un seul son ? Ils créèrent le proto-sinaïtique, un ensemble de 22 lettres fondées sur le principe acrophonique, où le signe d’un mot représente le premier son de ce mot. Une tête de bœuf (aleph) devint le son « a ». Une maison (beth) devint « b ».

C’était, à tous égards, l’une des inventions les plus déterminantes de l’histoire humaine. Un système d’écriture à 22 symboles pouvait s’apprendre en quelques semaines plutôt qu’en années. Les Phéniciens le perfectionnèrent vers 1050 avant notre ère et le diffusèrent à travers la Méditerranée par leurs réseaux commerciaux. Les Grecs l’empruntèrent, y ajoutèrent des voyelles (le phénicien, comme la plupart des écritures sémitiques, ne notait que les consonnes), et produisirent l’ancêtre de tous les alphabets européens. La branche araméenne évolua en hébreu, en arabe, et finalement dans les écritures d’Asie du Sud et centrale. Presque tous les alphabets de la Terre descendent de ces 22 caractères proto-sinaïtiques.

Cela importe parce que l’alphabétisation est un pouvoir. Quand l’écriture nécessitait des années de formation spécialisée, l’information était contrôlée par ceux qui pouvaient se payer des scribes. L’alphabet n’a pas éliminé ce déséquilibre de pouvoir, mais il a entrouvert une porte. La Réforme protestante, les Lumières, la diffusion des idées démocratiques : rien de tout cela n’était possible sans l’alphabétisation de masse, et l’alphabétisation de masse n’était pas possible sans un système d’écriture suffisamment simple pour que les gens ordinaires puissent l’apprendre.

Les langues meurent. Le rythme s’accélère.

Parmi les quelque 7 000 langues parlées aujourd’hui, les linguistes estiment qu’entre 40 et 50 pour cent sont en danger, ce qui signifie qu’elles ont moins de locuteurs qu’il n’en faudrait pour assurer leur transmission à la génération suivante. L’Atlas des langues en danger dans le monde de l’UNESCO répertorie des centaines de langues avec seulement quelques locuteurs âgés. Quand ils disparaissent, leurs langues disparaissent avec eux.

Ce n’est pas nouveau. Les langues ont toujours disparu. Le latin « est mort » (ou plutôt a évolué en langues romanes). Le sumérien a disparu en tant que langue parlée vers 2000 avant notre ère, ne survivant que comme langue littéraire et liturgique. Mais le taux actuel d’extinction des langues est historiquement sans précédent. La mondialisation, l’urbanisation et les politiques gouvernementales délibérées ont considérablement accéléré le processus. Certains linguistes projettent que 50 à 90 pour cent des langues du monde pourraient disparaître d’ici 2100.

Chaque perte est irréversible et comporte des conséquences qui dépassent la sentimentalité. Les langues encodent des savoirs : une terminologie botanique dans les langues amazoniennes autochtones sans équivalent en portugais, des concepts de navigation dans les langues des insulaires du Pacifique que la linguistique occidentale cherche encore à comprendre, des structures grammaticales qui révèlent des aspects de la cognition humaine qui seraient invisibles dans un monde avec moins d’options linguistiques.

L’histoire du langage s’écrit encore

L’histoire du langage ne s’arrête pas au présent. Le langage évolue aujourd’hui plus vite qu’à aucun autre moment de l’histoire enregistrée. Internet a créé des dialectes écrits qui auraient été méconnaissables il y a une génération. Les émojis constituent un nouveau système quasi-pictographique superposé au texte alphabétique. La traduction automatique rend la communication translinguistique possible à une échelle qui aurait semblé miraculeuse aux marchands phéniciens qui ont diffusé l’alphabet.

Et quelque part dans un laboratoire, des chercheurs s’efforcent encore de répondre à la question que Paris a bannie en 1866 : comment le langage a-t-il commencé ? La réponse honnête, après 160 ans de recherche renouvelée, est que nous ne le savons toujours pas avec certitude. Nous savons à peu près quand (il y a au moins 135 000 ans). Nous savons à peu près où (en Afrique subsaharienne). Nous savons que c’est arrivé une seule fois, dans le sens où toutes les langues humaines semblent partager des propriétés structurelles fondamentales. Mais le mécanisme, le moment où un cerveau d’hominidé a assemblé pour la première fois une pensée qui nécessitait une grammaire pour s’exprimer, reste le problème le plus difficile de la linguistique.

La Société de linguistique de Paris avait raison sur un point : cette question génère beaucoup de chaleur. Elle avait tort de l’interdire. La chaleur, il s’avère, valait la peine d’être endurée.

Le problème de la datation : quand le langage est-il apparu ?

Comprendre l’histoire du langage exige de répondre à la question de son émergence, ce qui est compliqué par un obstacle méthodologique fondamental : la parole ne laisse aucune trace archéologique directe. Contrairement aux outils en pierre ou aux peintures rupestres, les vocalisations ne se fossilisent pas. Les chercheurs doivent s’appuyer sur des preuves indirectes provenant de la génétique, de l’anatomie, de l’archéologie et de la linguistique comparative.

La tentative systématique la plus récente de dater l’émergence du langage provient de Miyagawa, DeSalle, Nóbrega, Nitschke, Okumura et Tattersall, dont la méta-analyse de 2025 dans Frontiers in Psychology a examiné 15 études génétiques couvrant 18 ans. Leur ensemble de données comprenait trois études sur le chromosome Y, trois études sur l’ADN mitochondrial et neuf études sur le génome entier. L’argument central est phylogénétique : puisque chaque population humaine connue possède un langage pleinement développé, et puisque la première grande scission de population s’est produite il y a environ 135 000 ans, la capacité langagière doit être antérieure à cette divergence.

Cette estimation est conservatrice. Homo sapiens est apparu il y a environ 230 000 ans, et certains chercheurs soutiennent que l’architecture cognitive du langage aurait pu être présente dès l’origine de l’espèce. Le registre archéologique montre une activité symbolique accrue (utilisation d’ocre, perles de coquillages, marquages délibérés) à partir d’environ 100 000 ans, ce qui peut indiquer l’usage du langage sans en constituer la preuve.

Une position concurrente, associée à l’archéologue Richard Klein, situe l’émergence de la modernité comportementale (et par implication du langage) vers 50 000 ans, coïncidant avec la « révolution du Paléolithique supérieur » en Europe. Cette hypothèse a perdu de sa force avec l’émergence de preuves antérieures de comportement symbolique sur des sites africains, mais le débat illustre à quel point les conclusions dépendent des preuves indirectes que l’on privilégie.

La génétique du langage : FOXP2 et au-delà

La découverte du gène FOXP2 à la fin des années 1990 par l’équipe de Simon Fisher à Oxford a d’abord suscité un immense enthousiasme. Le gène a été identifié grâce à l’étude de la famille KE, une famille britannique dans laquelle une mutation dominante provoquait une dyspraxie verbale sévère (difficulté avec les mouvements coordonnés nécessaires à la parole) sur trois générations. La couverture médiatique a rapidement qualifié FOXP2 de « gène du langage ».

Cette étiquette était prématurée. FOXP2 est un facteur de transcription qui régule d’autres gènes lors du développement embryonnaire, et il n’est pas propre aux humains. Des homologues existent chez les souris, les oiseaux et d’autres vertébrés. Une découverte de 2008 montrant que les Néandertaliens partageaient le même variant dérivé de FOXP2 que les humains modernes a encore fragilisé l’idée que ce gène à lui seul explique la capacité langagière humaine, puisque les Néandertaliens montrent « presque aucune preuve de la pensée symbolique » caractéristique des Homo sapiens contemporains, comme l’a noté Pagel dans BMC Biology.

La recherche actuelle traite FOXP2 comme l’un des composants d’un trait polygénique complexe. Le gène influence le contrôle moteur orofacial et certains aspects de l’apprentissage procédural, mais les individus porteurs de mutations FOXP2 peuvent encore comprendre le langage. La leçon est instructive : le langage n’est pas une adaptation unique produite par un seul gène. C’est un ensemble de capacités (contrôle articulatoire, mémoire de travail, traitement hiérarchique, cognition sociale) qui ont vraisemblablement évolué de façon progressive sur des centaines de milliers d’années.

La compositionnalité : la caractéristique définitoire du langage humain

La distinction centrale entre le langage humain et tous les systèmes de communication animaux connus est la compositionnalité (compositionality) : la capacité de combiner des unités discrètes en expressions structurées, hiérarchiquement organisées, dotées d’une sémantique compositionnelle. C’est la propriété que Noam Chomsky appelle « l’infinité discrète » : un inventaire fini d’éléments génère un ensemble illimité d’expressions significatives par combinaison récursive.

L’analyse de Mark Pagel de 2017 dans BMC Biology quantifie cela : avec 25 mots chacun pour les sujets, les verbes et les compléments, l’espace combinatoire dépasse 15 000 phrases avant de tenir compte du temps, de l’aspect, du mode ou de l’enchâssement. Aucun système de communication animal documenté n’approche cette capacité générative.

Le débat théorique sur la compositionnalité se divise grossièrement en deux camps. La position nativiste (Chomsky et ses successeurs) soutient que la capacité de structure syntaxique hiérarchique est innée, spécifique à l’espèce et spécifique au domaine, encodée comme une « Grammaire universelle » dans le génome humain. La position basée sur l’usage (Tomasello, Bybee, Goldberg, entre autres) soutient que la structure linguistique émerge de capacités cognitives générales (reconnaissance de patterns, analogie, apprentissage social, attention conjointe) appliquées à l’interaction communicative au fil du développement. Ce débat reste non résolu, bien que la position nativiste forte ait perdu du terrain à mesure que les données typologiques et d’acquisition se sont accumulées.

Systèmes d’écriture : invention indépendante et diffusion

L’écriture a été inventée indépendamment au plus quatre fois dans l’histoire humaine : en Mésopotamie (cunéiforme, vers 3400 avant notre ère), en Égypte (hiéroglyphes, vers 3200 avant notre ère, peut-être influencés par la Mésopotamie), en Chine (écriture sur os oraculaires, vers 1200 avant notre ère) et en Mésoamérique (Zapotèque/Maya, vers 900 avant notre ère). Tous les autres systèmes d’écriture en usage aujourd’hui dérivent de l’un d’eux par emprunt, adaptation ou diffusion de stimulus.

Le développement de l’écriture alphabétique représente une transition de phase critique. Le cunéiforme et les hiéroglyphes utilisaient des principes logographiques et syllabiques nécessitant des centaines de signes. Le proto-sinaïtique (vers 1800 avant notre ère), développé par des travailleurs de langue sémitique dans la péninsule du Sinaï, a réduit l’écriture à environ 22 signes consonantiques en utilisant le principe acrophonique : chaque signe représentait le phonème initial de l’objet représenté. L’alphabet phénicien (vers 1050 avant notre ère) a affiné ce système et, grâce à l’adaptation grecque (qui a ajouté les voyelles), est devenu l’ancêtre de pratiquement tous les scripts alphabétiques en usage aujourd’hui, y compris le latin, le cyrillique et (via l’araméen) l’hébreu, l’arabe et les scripts brahmaniques.

Les implications cognitives sont significatives. L’alphabétisation peut s’acquérir en quelques mois plutôt qu’en années, abaissant considérablement la barrière à la participation textuelle. Ce changement corrèle historiquement avec l’expansion des taux d’alphabétisation, bien que la relation causale soit complexe (les facteurs politiques, économiques et religieux médiatisent fortement la connexion).

La mise en danger des langues : données actuelles

Parmi les quelque 7 000 langues actuellement parlées, l’UNESCO et le Projet des langues en danger en classifient entre 40 et 50 pour cent comme menacées. La distribution est très inégale : environ 23 langues représentent plus de la moitié des locuteurs du monde, tandis que des milliers de langues ont des communautés se comptant en quelques centaines de personnes ou moins.

La mort des langues n’est pas nouvelle (le sumérien a cessé d’être une langue parlée vers 2000 avant notre ère ; l’étrusque a disparu sous l’assimilation romaine), mais le taux actuel est sans précédent. Les estimations varient, mais les projections suggèrent que 50 à 90 pour cent des langues existantes pourraient cesser d’être parlées d’ici 2100. Les principaux facteurs sont l’urbanisation, l’intégration économique, les politiques d’éducation imposant les langues dominantes et les politiques linguistiques délibérées à l’échelle étatique.

Le coût scientifique de la perte des langues va au-delà du patrimoine culturel. Les langues encodent des systèmes de catégorisation, des cadres de raisonnement spatial et des savoirs écologiques qui pourraient ne pas être récupérables par la traduction. L’absence contestée de récursivité dans la langue pirahã, le système de référence spatiale absolue du guugu yimithirr et les élaborées taxonomies botaniques des langues amazoniennes constituent autant de données pour comprendre les limites et la flexibilité de la cognition humaine. Chaque langue perdue réduit la base empirique pour tester les théories sur ce que les esprits humains peuvent ou ne peuvent pas faire avec le langage.

Questions ouvertes

L’histoire du langage contient plus d’inconnues que de certitudes, ce qui est en soi une information utile sur l’état de la science. Parmi les grandes questions non résolues :

Monogenèse vs. polygenèse : Le langage est-il apparu une seule fois, toutes les langues descendant d’une proto-langue unique ? Ou est-il apparu indépendamment dans plusieurs populations ? Les preuves génétiques (la capacité langagière étant antérieure aux scissions de population) favorisent la monogenèse, mais cela reste débatable.
Émergence graduelle vs. saltative : Le langage a-t-il évolué de façon progressive sur des centaines de milliers d’années, ou une seule mutation (l’hypothèse du « grand bond en avant » de Chomsky) a-t-elle permis la capacité pleine de façon relativement soudaine ?
La question néandertalienne : Les Néandertaliens avaient-ils un langage ? Ils possédaient l’os hyoïde, FOXP2 et de grands cerveaux, mais ont laissé peu de preuves de comportement symbolique. La question reste non résolue.
Le rôle du geste : Certains chercheurs (notamment Michael Corballis) soutiennent que le langage a commencé comme geste manuel et ne s’est transféré à la parole que plus tard. La pleine complexité grammaticale des langues des signes soutient la plausibilité de cette voie, bien que les preuves directes soient indisponibles.

La Société de linguistique de Paris a levé son interdiction de 1866 dans l’esprit, sinon formellement, à la fin du XXe siècle. La question des origines du langage est désormais considérée comme un domaine de recherche légitime. L’évaluation honnête de 160 ans d’investigation renouvelée : nous en savons considérablement plus sur le quand et le où, mais le comment reste le problème le plus difficile des sciences cognitives.

L’Histoire du langage : 135 000 ans de parole et 5 000 ans d’écriture

Les 130 000 ans de silence

Ce qui distingue le langage humain

L’histoire du langage écrit : quand la parole ne suffisait plus

L’alphabet : le plus grand coup de génie de l’histoire

Les langues meurent. Le rythme s’accélère.

L’histoire du langage s’écrit encore

Le problème de la datation : quand le langage est-il apparu ?

La génétique du langage : FOXP2 et au-delà

La compositionnalité : la caractéristique définitoire du langage humain

Systèmes d’écriture : invention indépendante et diffusion

La mise en danger des langues : données actuelles

Questions ouvertes

Sources

Les 130 000 ans de silence

Ce qui distingue le langage humain

L’histoire du langage écrit : quand la parole ne suffisait plus

L’alphabet : le plus grand coup de génie de l’histoire

Les langues meurent. Le rythme s’accélère.

L’histoire du langage s’écrit encore

Le problème de la datation : quand le langage est-il apparu ?

La génétique du langage : FOXP2 et au-delà

La compositionnalitéLa capacité à combiner un ensemble fini d'éléments (mots, sons ou symboles) en un nombre infini d'expressions significatives selon des règles systématiques. C'est la caractéristique fondamentale du langage humain. : la caractéristique définitoire du langage humain

Systèmes d’écriture : invention indépendante et diffusion

La mise en danger des langues : données actuelles

Questions ouvertes

Sources

Articles liés

L’argument ontologique : définir Dieu en l’existence depuis un millénaire

La Jument de Michao : chant funèbre, chant de guerre, ou comédie domestique ?

Histoire du zoroastrisme : la première religion monothéiste au monde, et pourquoi tout le monde a oublié de lui en rendre grâce

Le jour où Boston a été noyée dans la mélasse : un désastre dont personne n’était responsable jusqu’à ce qu’un juge dise le contraire

La compositionnalité : la caractéristique définitoire du langage humain