Institut de l'intelligence artificielle de l'Alberta

L'apprentissage des langues chez les enfants et les bébés

Publié

8 septembre 2025

Sujet

Recherche

Cet article est le deuxième d'une série rédigée par Alona Fyshechercheur en communication scientifique en résidence à l'institut de recherche Amiiqui explore les idées et les percées qui ont façonné l'IA moderne et les questions que nous continuons à nous poser.

Soyons honnêtes, ChatGPT est étonnamment bon. Ayant travaillé avec des LLM (et leur prédécesseur, les simples LM) pendant près de dix ans, j'ai été surpris par la capacité de ChatGPT à raisonner et à repérer des modèles. J'ai passé deux ans avec un étudiant à essayer d'apprendre à un LM à écrire des limericks correctement rimés. Aujourd'hui, ChatGPT peut vous écrire un limerick parfait sur pratiquement n'importe quel sujet.

Il est clair que les LLM d'aujourd'hui sont plus proches que jamais des compétences linguistiques humaines, et qu'ils continuent de s'améliorer. Par exemple, Open AI a récemment présenté un modèle capable de résoudre des problèmes mathématiques remarquablement difficiles basés sur la langue. Pourtant, la manière dont les LLM apprennent le langage n'a rien à voir avec la manière dont les humains apprennent le langage. Comment les LLM peuvent-ils maîtriser le langage de manière aussi complète si le processus d'apprentissage est si différent ?

La disparité de l'acquisition de l'apprentissage des langues

Si notre approche de l'enseignement du langage aux bébés reflétait la manière dont nous formons les LLM, cela équivaudrait à placer un bébé devant un navigateur web qui afficherait des pages web aléatoires tout au long de la journée. En effet, nous formons les LLM en montrant aux modèles des millions d'échantillons de texte sélectionnés au hasard. Il n'y a pas d'ordre dans les données ; les modèles ne commencent pas par les pages web dont le langage est le plus simple. Il est aussi probable qu'un LLM commence par un manuel technique ou un CNN que par un site web écrit pour de jeunes enfants. De plus, les LLM sont formés sur plus d'un trillion de mots de texte. C'est 1000 fois plus de mots qu'un enfant de 13 ans n'en a connu au cours de sa vie.

Comment les enfants font-ils l'expérience du langage dans le monde ? Une partie du langage que les nourrissons expérimentent est ce que nous appelons la parole dirigée par l'enfant. Dans les cultures occidentales, le discours dirigé par l'enfant se caractérise par une intonation et une cadence différentes. On l'appelle souvent le "baby-talk" et, par rapport au discours des adultes, les phrases du baby-talk sont plus simples, plus courtes et prononcées sur un ton chantant. Les mots sont également plus énoncés et accompagnés d'expressions faciales exagérées afin d'aider les enfants à apprendre les mots. Lorsque nous parlons aux bébés, nous prenons également en compte le contenu qui est compréhensible pour un enfant. Il est donc probable que la géopolitique ne soit pas mentionnée, mais que des mots liés aux jouets, à la nourriture ou au paysage actuel soient souvent utilisés. Les propos tenus par les enfants sont spécialement encadrés et marqués, ce qui n'est pas le cas des propos tenus par les adultes.

Les modèles linguistiques et les bébés apprennent donc avec des données d'entrée très différentes. Les modèles linguistiques sont confrontés à des mélanges de textes sans rapport entre eux et de difficultés variables pendant des millions d'itérations. Les enfants reçoivent des données beaucoup moins dirigées, mais elles sont échelonnées et marquées d'une manière qui favorise l'apprentissage. Il n'est donc pas surprenant que la trajectoire d'apprentissage soit très différente pour les bébés et les enfants.

Mesurer les trajectoires d'apprentissage des langues

Cela soulève une énigme intéressante : pour les tranches d'âge de l'apprentissage précoce du langage, les bébés ne peuvent pas dire de manière fiable tous les mots qu'ils comprennent. Par conséquent, si un bébé ne peut pas dire un mot, comment pouvons-nous savoir qu'il le comprend ? Les inventaires de développement communicatif MacArthur-Bates (MB-CDI) abordent ce problème en utilisant le rapport des parents sur la connaissance des mots de leurs enfants. Bien que l'utilisation des rapports parentaux présente des inconvénients (les parents peuvent surestimer ou sous-estimer le nombre de mots que leur enfant connaît), elle présente également des avantages significatifs. Il est beaucoup plus efficace d'interroger les parents sur les mots que leurs enfants comprennent plutôt que d'effectuer une sorte de test de laboratoire sur la compréhension de dizaines de mots. Et même si les parents ne comprennent pas parfaitement la connaissance des mots de leurs enfants, la moyenne des rapports des parents permet d'obtenir une image claire de la connaissance des mots.

Wordbank est une collection de nombreux rapports MB-CDI provenant de parents du monde entier. Elle nous permet d'étudier l'apprentissage des mots dans plusieurs langues et environnements linguistiques. Dans le cadre de notre étude, nous nous concentrerons sur les bébés monolingues anglais. Sur la base des rapports des parents, Wordbank produit des graphiques de trajectoires d'apprentissage qui montrent le pourcentage de bébés ayant appris un mot à un certain âge. L'âge d'acquisition d'un mot est défini comme le moment où 50 % des bébés sont censés connaître le mot. Les graphiques des trajectoires d'apprentissage nous montrent que les bébés ont tendance à apprendre d'abord les noms, en particulier ceux qui sont liés à leur expérience (par exemple, maman, papa, biberon, bonjour). L'apprentissage des mots de fonction (mots qui ont une fonction grammaticale mais qui ont moins de sens sémantique) se fait beaucoup plus tard. Le graphique ci-dessous montre les trajectoires d'apprentissage de certains des premiers mots que les bébés apprennent (maman, hi, miam-miam), par rapport aux premiers mots que les personnes âgées apprennent (on, you, his).

Arguments en faveur d'une formation à l'apprentissage tout au long de la vie semblable à celle des humains

Comment pouvons-nous mesurer le moment où un LLM acquiert un mot ? En s'inspirant des études sur la connaissance des mots chez les bébés, Chang et al. (2022) ont créé une mesure qui reflète le seuil de 50 % utilisé pour les mesures de l'âge d'acquisition chez les bébés. Sur la base de cette métrique, les auteurs ont constaté un modèle d'acquisition très différent. Les modèles de langage apprennent les mots d'une manière qui est fortement liée à leur fréquence dans le texte sur lequel ils sont formés (Chang 2022). En d'autres termes, les LLM apprennent les mots qu'ils voient le plus souvent avant de passer à l'apprentissage de mots plus rares. Les mots les plus fréquents dans la langue ont tendance à être des mots de fonction parce qu'ils sont utilisés dans de nombreux contextes différents.

Mais est-ce important ? Si les LLM finissent par apprendre à utiliser une langue couramment, en quoi la manière dont ils l'ont apprise est-elle importante ? C'est important parce que les LLM ne sont pas des utilisateurs de la langue parfaitement humains. Par exemple, ils ont besoin d'un garde-fou important pour éviter de produire un langage offensant. Cela s'explique en partie par le fait que les LLM apprennent le langage en dehors du contexte culturel dans lequel les bébés apprennent le langage. De plus, des expériences minutieuses montrent que les LLM s'appuient probablement encore sur la mémorisation plutôt que sur le raisonnement dans certains cas. Les facteurs à l'origine de ces différences résident peut-être dans les différences entre les régimes de formation.

La formation des LLM est également extrêmement gourmande en ressources informatiques. L'entraînement de ces puissants modèles nécessite un énorme capital, ce qui signifie que les grandes entreprises créent et possèdent nos LLM les plus puissants. Cela crée un déséquilibre sur le marché qui rend difficile l'implantation des petites entreprises. La formation des LLM est coûteuse, en partie à cause de l'énorme quantité d'énergie nécessaire pour faire fonctionner les ordinateurs qui effectuent la formation. La formation d'un seul LLM peut produire autant de carbone que deux vols aller-retour NY-LA. Si nous formons les LLM d'une manière plus humaine, ils pourraient nécessiter moins de puissance de calcul.

Les chercheurs ont répondu à ces appels. L'année dernière (2024) a eu lieu la deuxième itération du défi, au cours de laquelle des équipes de scientifiques se sont affrontées pour former les LLM les plus précis en n'utilisant qu'une fraction des données. Ce concours encourage les chercheurs à explorer des méthodes plus créatives pour former les LLM, en s'inspirant des apprenants de langues les plus efficaces que nous connaissons : les bébés humains.

Comme tous les créatifs, les bons scientifiques remettent en question le statu quo. Rendre la formation en LLM plus efficace et plus humaine va à l'encontre de la plupart des recherches de pointe en LLM. Mais une formation plus humaine est l'un des moyens de découvrir le prochain ChatGPT, plus humain.

Alona Fyshe est chercheuse en résidence pour la communication scientifique à l'Amii, titulaire d'une chaire d'IA du CIFAR au Canada et boursière de l'Amii. Elle est également professeure associée, nommée conjointement à l'informatique et à la psychologie à l'université de l'Alberta.

Les travaux d'Alona font le lien entre les neurosciences et l'IA. Elle applique des techniques d'apprentissage automatique aux données d'imagerie cérébrale recueillies lors de la lecture de textes ou de la visualisation d'images, révélant ainsi comment le cerveau encode le sens. Parallèlement, elle étudie comment les modèles d'IA apprennent des représentations comparables à partir de données linguistiques et visuelles.

Partager