L'une des raisons pour lesquelles les LLM sont si utiles est qu'ils peuvent gérer plusieurs tâches par le biais d'une interface linguistique. En d'autres termes, pour qu'un LLM fasse quelque chose, il suffit de le lui demander ! Qu'est-ce qui a rendu possible cette interaction intuitive ? Il s'agit d'une série de petites avancées qui, une à une, ont dévoilé la magie des LLM.

La première avancée a consisté à réexaminer la manière dont nous abordons un sous-domaine de l'apprentissage automatique : l'apprentissage supervisé. Il était communément admis que, pour l'apprentissage supervisé, un modèle devait être entraîné pour une tâche spécifique à l'aide d'un ensemble de données spécifique décrivant la tâche à l'aide de multiples exemples. Par exemple, si nous voulons prédire si un courriel est un spam ou non en fonction des mots qu'il contient, nous devons collecter un ensemble de courriels et étiqueter chacun d'entre eux comme "spam" ou "non spam". Cette catégorisation du texte (courriels) en groupes (classes : spam ou non spam) est appelée classification de texte. Cette tâche classique d'apprentissage supervisé est étudiée depuis des décennies avec le même flux de travail : collecte de données, étiquetage de chaque élément de l'ensemble de données (à la main) et formation d'un nouveau modèle sur ces données - et souvent uniquement sur ces données - pour effectuer la tâche de classification.

Les cadres qui forment les modèles de classification sont construits de manière très générale afin que nous puissions former des modèles pour n'importe quelle tâche de classification. Cela signifie que ces cadres doivent être capables de traiter des classes portant n'importe quel nom. Pour ce faire, les modèles représentent les noms de classe par des nombres entiers (par exemple, spam et not-spam peuvent devenir 0 et 1). Les modèles de classification ignorent le contenu des noms de classe et les remplacent simplement par les nombres correspondants. Ainsi, l'ordinateur ne sait pas vraiment qu'il trie le spam du non-spam ; il trie simplement les données en deux groupes étiquetés 0 et 1.

Mais vers 2019, les LLM ont radicalement changé notre approche de l'apprentissage supervisé.

Le changement est venu de l'observation que, puisqu'un LLM peut produire des mots en sortie, ce mot en sortie peut être la classification. Si nous classons un e-mail comme spam ou non spam, nous transmettons l'e-mail au LLM, avec l'invite "Cet e-mail est-il un spam ? Ensuite, nous l'entraînons à produire le mot "spam" si l'e-mail est un spam, et "not-spam" dans le cas contraire. Après avoir lu l'e-mail, le LLM aura une probabilité associée aux phrases "spam" et "non spam". Nous pouvons comparer les probabilités pour trouver la classe la plus probable pour l'e-mail.

Cela fonctionne mieux que les modèles de classification 0 vs 1 que nous avons utilisés précédemment car cela nous permet de tirer parti de l'énorme quantité de texte sur lequel le LLM a été préentraîné (plus que l'ensemble de données spécifique au spam), et permet également au modèle de voir la sémantique de la tâche à travers l'invite ("Cet e-mail est-il du spam ?") et les étiquettes de classe réelles ("spam" et "non-spam" au lieu de 0 et 1).

L'idée qui sous-tend la deuxième avancée est contenue dans la première : nous pouvons inciter un LLM en posant une question qui fournit des informations supplémentaires sur la manière dont le LLM devrait répondre. Cette idée a déclenché une avalanche de recherches sur l'incitation, y compris l'ajustement de l'incitation et les incitations douces. L'industrie s'est également montrée très intéressée, avec notamment la publication d'un poste d'"ingénieur de l'incitation" chez Anthropic, avec un salaire pouvant aller jusqu'à 335 000 USD !

Les chercheurs ont alors réalisé qu'une invite pouvait être élargie pour inclure plusieurs exemples montrant comment le modèle devrait effectuer la tâche. C'est ce qu'on appelle "l'apprentissage en contexte", qui élimine la nécessité d'affiner les modèles pour des tâches spécifiques. Le modèle est exposé à des exemples de formation dans l'invite (contexte) et aucune mise à jour du modèle n'est effectuée.

L'apprentissage en contexte est remarquable car il ne nécessite aucune formation. Les utilisateurs peuvent instantanément demander aux modèles d'effectuer une nouvelle tâche, sans avoir à créer une copie du modèle spécialement adaptée à la nouvelle tâche, ce qui demande beaucoup de ressources. Cependant, c'est aussi l'inconvénient de cette technique : comme nous n'effectuons pas de recyclage, il existe peu de mécanismes permettant d'améliorer les performances des modèles en contexte, en dehors de l'augmentation de la taille des modèles ou de la modification de l'invite. D'où la question suivante : pouvons-nous faire en sorte que ces modèles s'adaptent mieux à de nouvelles tâches, et pas seulement qu'ils soient plus performants pour les tâches particulières du contexte ?

Cela a conduit à la troisième avancée : le développement de l'Instruction Tuning, que j'ai couvert en profondeur précédemment. Les modèles sont entraînés sur des ensembles de données qui comprennent plusieurs invites (instructions) avec plusieurs exemples pour chaque invite. Le modèle apprend ainsi à effectuer des tâches de manière plus générale, au lieu de se concentrer sur une tâche spécifique.

Le passage de l'apprentissage supervisé spécifique à une tâche aux modèles plus dynamiques d'aujourd'hui, qui suivent les instructions, met en évidence l'évolution transformatrice de la manière dont nous interagissons avec l'IA. Alors que de nombreuses autres innovations ont contribué à l'amélioration de l'utilité des MLD (par exemple, l'apprentissage par renforcement à partir du feedback humain, ou RLHF), la progression discrète des étiquettes de classe numériques vers des invites en langage riche est une ligne de démarcation que je vois dans l'histoire des MLD et dont on semble moins parler. Et c'est la raison pour laquelle il est aussi facile d'utiliser un LLM que de poser une question.

Alona Fyshe est chercheuse en résidence pour la communication scientifique à l'Amii, titulaire d'une chaire d'IA du CIFAR au Canada et boursière de l'Amii. Elle est également professeure associée, nommée conjointement à l'informatique et à la psychologie à l'université de l'Alberta.

Les travaux d'Alona font le lien entre les neurosciences et l'IA. Elle applique des techniques d'apprentissage automatique aux données d'imagerie cérébrale recueillies lors de la lecture de textes ou de la visualisation d'images, révélant ainsi comment le cerveau encode le sens. Parallèlement, elle étudie comment les modèles d'IA apprennent des représentations comparables à partir de données linguistiques et visuelles.