Dans un article publié dans Natureune équipe de chercheurs d'Amii en a appris davantage sur un problème mystérieux de l'apprentissage automatique - une découverte qui pourrait constituer une étape majeure vers la construction d'une IA avancée capable de fonctionner efficacement dans le monde réel.

L'article, Perte de plasticité dans l'apprentissage continu profonda été publié dans la prestigieuse revue scientifique le 21 août. Il a été rédigé par Shibhansh Dohare, J. Fernando Hernandez-Garcia, Qingfeng Lan, Parash Rahman, ainsi que par les boursiers Amii et les titulaires des chaires CIFAR d'IA au Canada. A. Rupam Mahmood et Richard S. Sutton.

Dans son article, l'équipe explore un problème épineux que l'on soupçonne depuis longtemps dans les modèles d'apprentissage profond, mais qui n'a pas reçu beaucoup d'attention : pour une raison quelconque, de nombreux agents d'apprentissage profond engagés dans un apprentissage continu perdent la capacité d'apprendre et voient leurs performances se dégrader considérablement.

"Nous avons établi qu'il y a définitivement un problème avec l'apprentissage profond actuel", a déclaré Mahmood. "Lorsque vous devez vous adapter en permanence, nous avons montré que l'apprentissage profond finit par cesser de fonctionner. Il est donc impossible de continuer à apprendre."

Il souligne que non seulement l'agent IA perd la capacité d'apprendre de nouvelles choses, mais qu'il ne parvient pas non plus à réapprendre ce qu'il a appris dans le passé après l'avoir oublié. Les chercheurs ont baptisé ce phénomène "perte de plasticité", empruntant un terme aux neurosciences où la plasticité désigne la capacité du cerveau à adapter sa structure et à former de nouvelles connexions neuronales.

"Cela montre vraiment qu'il ne s'agit pas d'un petit coin de l'apprentissage profond.
Rich SuttonBoursier Amii et titulaire de la chaire d'IA du CIFAR au Canada

L'état actuel de l'apprentissage profond

Selon les chercheurs, la perte de plasticité constitue un défi majeur pour le développement d'une IA capable de gérer efficacement la complexité du monde et devrait être résolue pour développer une intelligence artificielle de niveau humain.

De nombreux modèles existants ne sont pas conçus pour l'apprentissage continu. Sutton cite l'exemple de ChatGPT, qui n'apprend pas en continu. Au lieu de cela, ses créateurs entraînent le modèle pendant un certain temps. Une fois la formation terminée, le modèle est déployé sans apprentissage supplémentaire.

Même avec cette approche, il peut être difficile de fusionner les nouvelles et les anciennes données dans la mémoire d'un modèle. La plupart du temps, il est plus efficace de repartir de zéro, d'effacer la mémoire et d'entraîner à nouveau le modèle sur l'ensemble des données. Pour les grands modèles comme ChatGPT, ce processus peut prendre beaucoup de temps et coûter des millions de dollars à chaque fois.

Cela limite également le type de choses qu'un modèle peut faire. Pour les environnements en évolution rapide et constante, comme les marchés financiers par exemple, M. Sutton estime que l'apprentissage continu est une nécessité.

Caché à la vue de tous

Selon l'équipe, la première étape pour s'attaquer à la perte de plasticité consistait à montrer qu'elle se produit et qu'elle est importante. Il y avait des indices suggérant que la perte de plasticité pouvait être un problème répandu dans l'apprentissage profond, mais très peu de recherches avaient été menées pour l'étudier réellement.

M. Rahman explique qu'il a commencé à s'intéresser à ce problème parce qu'il ne cessait d'en voir des indices, ce qui l'intriguait.

"Je lisais un article et je voyais dans les annexes une indication sur la baisse des performances. Je lisais un document et je voyais quelque chose dans les annexes sur la baisse des performances, puis je le voyais dans un autre document quelque temps plus tard", a-t-il déclaré.

L'équipe de recherche a conçu plusieurs expériences pour rechercher une perte de plasticité dans les systèmes d'apprentissage profond. Dans le cadre de l'apprentissage supervisé, ils ont formé des réseaux à des séquences de tâches de classification. Par exemple, un réseau apprendrait à faire la différence entre les chats et les chiens dans la première tâche, puis entre les castors et les oies dans la deuxième tâche, et ainsi de suite pour de nombreuses tâches. Ils ont émis l'hypothèse qu'au fur et à mesure que les réseaux perdaient leur capacité d'apprentissage, leur capacité de différenciation diminuait dans chaque tâche suivante.

Et c'est exactement ce qui s'est passé.

"Cela montre vraiment qu'il ne s'agit pas d'un petit coin de l'apprentissage profond.

"Nous avons utilisé plusieurs ensembles de données différents pour les tester, afin de montrer qu'ils pouvaient être répandus. Cela montre vraiment que cela ne se produit pas dans un petit coin de l'apprentissage profond", a déclaré M. Sutton.

La prise en charge des morts

Une fois le problème établi, les chercheurs ont dû se demander s'il était possible de le résoudre. La perte de plasticité est-elle un problème inhérent aux réseaux d'apprentissage profond continu, ou existe-t-il un moyen de leur permettre de continuer à apprendre ?

Ils ont trouvé un certain espoir dans une méthode basée sur la modification de l'un des algorithmes fondamentaux qui permettent aux réseaux neuronaux de fonctionner : la rétropropagation.

Les réseaux neuronaux sont conçus pour reproduire la structure du cerveau humain : ils contiennent des unités capables de transmettre des informations et d'établir des connexions avec d'autres unités, à l'instar des neurones. Les unités individuelles peuvent transmettre des informations à d'autres couches d'unités, qui font de même. Tout cela contribue à la production globale du réseau.

Toutefois, lorsque l'on adapte la force de connexion ou les "poids" du réseau avec la rétropropagation, ces unités calculent souvent des sorties qui ne contribuent pas réellement à l'apprentissage. Elles n'apprendront pas non plus de nouvelles sorties, de sorte qu'elles deviendront un poids mort pour le réseau et cesseront de contribuer au processus d'apprentissage.

Au cours d'un apprentissage continu à long terme, jusqu'à 90 % des unités d'un réseau peuvent devenir mortes, note M. Mahmood. Et lorsque suffisamment d'unités cessent de contribuer, le modèle perd sa plasticité.

L'équipe a donc mis au point une méthode modifiée qu'elle a appelée "rétropropagation continue".

Dohare précise qu'elle diffère de la rétropropagation sur un point essentiel : alors que la rétropagation initialise aléatoirement les unités uniquement au tout début, la rétropagation continue le fait en permanence. De temps en temps, au cours de l'apprentissage, elle sélectionne certaines unités inutiles, comme les unités mortes, et les réinitialise avec des poids aléatoires. En utilisant la rétropropagation continue, ils ont découvert que les modèles peuvent apprendre en continu beaucoup plus longtemps, parfois de manière apparemment indéfinie.

Selon M. Sutton, d'autres chercheurs pourraient trouver de meilleures solutions pour remédier à la perte de plasticité, mais leur approche de rétropropagation continue montre au moins que le problème peut être résolu et que cette difficulté n'est pas inhérente aux réseaux profonds.

Il espère que les travaux de l'équipe attireront davantage l'attention sur la perte de plasticité et encourageront d'autres chercheurs à se pencher sur la question.

"Nous avons établi ce problème de manière à ce que les gens soient obligés de le reconnaître. Le domaine devient progressivement plus enclin à reconnaître que l'apprentissage profond, malgré ses succès, présente des problèmes fondamentaux qui doivent être résolus", a-t-il déclaré. "Nous espérons donc que cela ouvrira un peu cette question.