Certains problèmes nécessitent davantage de réflexion.

Ce n'est pas surprenant : 5 + 5 nécessite moins de réflexion que 5 * (67 + 99) / 700 + 4/5. Mais vous serez peut-être surpris d'apprendre que nous utilisions pour limiter la quantité de réflexion que les grands modèles linguistiques basés sur des transformateurs (LLMS) pouvaient effectuer avant de répondre une question.

Qu'est-ce que j'entends par « réflexion » d'un LLM ?

Dans ce cas, c'est quelque chose de relativement simple : le modèle effectue un nombre défini d'opérations mathématiques pour prédire le mot suivant dans une séquence. Le nombre d'opérations qu'un modèle peut effectuer est vaguement lié à sa taille et s'apparente à la quantité de réflexion qu'un modèle peut effectuer. Les LLM sont volumineux, mais leur taille est fixe, et leur capacité de réflexion est donc limitée. Cela fonctionne bien jusqu'à ce que les problèmes atteignent une certaine taille ou complexité. C'est alors que nous commençons à nous heurter aux limites de ce qu'un LLM peut faire.

Agrandir le modèle semble être une solution simple ! Malheureusement, l'entraînement de modèles plus grands pose des défis techniques et entraîne des coûts de calcul supplémentaires. De plus, à mesure que nous agrandissons les modèles, les données nécessaires à leur entraînement augmentent également. Ainsi, même si les entreprises spécialisées dans l'IA créent des modèles d'IA de plus en plus grands, ce n'est pas une solution facile.

Que pouvons-nous faire si nous voulons que nos modèles réfléchissent davantage sans augmenter leur taille ? Pour un LLM, la seule façon de réfléchir davantage est d'ajouter des étapes de calcul supplémentaires. Une façon d'augmenter le calcul (sans entraîner un modèle plus grand) consiste à demander au LLM de produire des jetons intermédiaires avant sa réponse finale. Il s'agit de la chaîne de pensée (CoT), développée en partie par mon collègue chez Amii, Dale Schuuurmans.

Vous pouvez en savoir plus sur Dale dans Chain of Thought dans cette conférence qu'il a donnée récemment :

Pour entraîner un modèle à effectuer des CoT, nous lui fournissons des exemples de raisonnement lors de la phase d'entraînement. Le modèle apprend alors à produire des mots intermédiaires qui lui donnent plus d'espace pour effectuer des calculs.

Le fait de laisser un peu de temps aux LLM pour réfléchir a eu un impact considérable sur les performances pour certains types de problèmes. Les chercheurs ont testé cette approche avec GSM8K, un ensemble de problèmes mathématiques destinés aux élèves du primaire, et ont constaté une augmentation considérable des performances. Le CoT a également permis d'améliorer les performances sur des ensembles de données de raisonnement de bon sens et de raisonnement symbolique.

Le CoT offre bien plus qu'une simple augmentation de la puissance de réflexion. Il ouvre également la voie à de nouveaux types de calculs. En particulier, le CoT permet aux modèles de réanalyser leurs étapes passées. Cette réanalyse est en réalité extrêmement puissante et nécessaire pour résoudre certains types de problèmes. Par exemple, grâce au CoT, un LLM peut détecter s'il existe un itinéraire entre deux villes dans un réseau routier, mais ne pourrait pas résoudre ce problème de manière fiable sans le CoT.

La chaîne de pensée est un concept simple mais puissant : certains problèmes ne nécessitent qu'un peu de réflexion, tandis que d'autres en requièrent davantage. Plus important encore, la chaîne de pensée a aidé les informaticiens à réfléchir attentivement aux capacités des modèles de transformateurs, ce qui a permis de comprendre pourquoi les LLM pouvaient résoudre certains problèmes, mais pas d'autres.

Alona Fyshe est chercheuse résidente en communication scientifique à l'Amii, titulaire d'une chaire CIFAR AI au Canada et membre de l'Amii. Elle est également professeure agrégée en informatique et en psychologie à l'Université de l'Alberta.

Les travaux d'Alona font le lien entre les neurosciences et l'IA. Elle applique des techniques d'apprentissage automatique aux données d'imagerie cérébrale recueillies lors de la lecture de textes ou de la visualisation d'images, révélant ainsi comment le cerveau encode le sens. Parallèlement, elle étudie comment les modèles d'IA apprennent des représentations comparables à partir de données linguistiques et visuelles.