Richard Sutton et Andrew Barto récompensés pour leur recherche fondamentale sur l'apprentissage par renforcement
L'ACM, l'Association for Computing Machinery, a nommé aujourd'hui Richard S. Sutton, boursier de l'Amii et titulaire de la chaire canadienne d'IA, et Andrew G. Barto, professeur émérite d'informatique à l'Université du Massachusetts Amherst, lauréats du prix ACM A.M. Turing 2024 pour avoir développé les fondements conceptuels et algorithmiques de l'apprentissage par renforcement. Dans une série d'articles publiés à partir des années 1980, Barto et Sutton ont présenté les principales idées, construit les fondements mathématiques et développé d'importants algorithmes pour l'apprentissage par renforcement, l'une des approches les plus importantes pour la création de systèmes intelligents.
Le prix ACM A.M. Turing, souvent appelé le "prix Nobel de l'informatique", est doté d'un million de dollars et bénéficie du soutien financier de Google, Inc. Le prix porte le nom d'Alan M. Turing, le mathématicien britannique qui a formulé les fondements mathématiques de l'informatique.
Qu'est-ce que l'apprentissage par renforcement ?
Barto et Sutton, conjointement et avec d'autres, ont développé un grand nombre d'approches algorithmiques de base pour le RL. Il s'agit notamment de leur principale contribution, l'apprentissage par différence temporelle, qui a permis une avancée importante dans la résolution des problèmes de prédiction de la récompense, ainsi que des méthodes de gradient de politique et de l'utilisation des réseaux neuronaux comme outil de représentation des fonctions apprises. Ils ont également proposé des modèles d'agents combinant l'apprentissage et la planification, démontrant la valeur de l'acquisition de connaissances sur l'environnement comme base de la planification.
Leur manuel, Reinforcement Learning : An Introduction (1998), qui reste la référence dans ce domaine et a été cité plus de 75 000 fois. Il a permis à des milliers de chercheurs de comprendre et de contribuer à ce domaine émergent et continue d'inspirer de nombreuses activités de recherche importantes dans le domaine de l'informatique aujourd'hui.
Bien que les algorithmes de Barto et Sutton aient été développés il y a plusieurs décennies, des avancées majeures dans les applications pratiques de l'apprentissage par renforcement ont été réalisées au cours des quinze dernières années en fusionnant l'apprentissage par renforcement avec des algorithmes d'apprentissage profond (dont les pionniers sont Bengio, Hinton et LeCun, lauréats du prix Turing 2018). C'est ainsi qu'est née la technique de l'apprentissage par renforcement profond.
L'exemple le plus marquant de RL a été la victoire du programme informatique AlphaGo sur les meilleurs joueurs de go humains en 2016 et 2017. Une autre réalisation majeure récente a été le développement du chatbot ChatGPT. ChatGPT est un grand modèle de langage (LLM) formé en deux phases, dont la seconde utilise une technique appelée apprentissage par renforcement à partir du feedback humain (RLHF), pour capturer les attentes humaines.
Rich Sutton : L'importance des idées
Rich Sutton a consacré sa carrière à la compréhension de l'esprit, ce qu'il appelle"l'un des rares grands biens de l'univers".
Découvrez sa façon unique de penser et l'immense impact qu'il a eu sur la science de l'IA.
Lire la suite

L'apprentissage par renforcement a également été couronné de succès dans de nombreux autres domaines. Un exemple de recherche très médiatisé est l'apprentissage de la motricité des robots dans la manipulation et la résolution d'un Rubik's Cube, qui a montré qu'il était possible d'effectuer tout l'apprentissage par renforcement en simulation, tout en réussissant finalement dans le monde réel, qui est très différent.
Parmi les autres domaines figurent le contrôle de la congestion des réseaux, la conception de puces, la publicité sur internet, l'optimisation, l'optimisation de la chaîne d'approvisionnement mondiale, l'amélioration du comportement et des capacités de raisonnement des chatbots, et même l'amélioration des algorithmes pour l'un des plus vieux problèmes de l'informatique, la multiplication matricielle.
"Les travaux de Barto et Sutton démontrent l'immense potentiel de l'application d'une approche multidisciplinaire à des défis de longue date dans notre domaine", explique Yannis Ioannidis, président de l'ACM.
"Des domaines de recherche allant des sciences cognitives et de la psychologie aux neurosciences ont inspiré le développement de l'apprentissage par renforcement, qui a jeté les bases de certaines des avancées les plus importantes en matière d'intelligence artificielle et nous a permis de mieux comprendre le fonctionnement du cerveau. Barto et
Le travail de Sutton n'est pas un tremplin que nous avons maintenant dépassé. L'apprentissage par renforcement continue de se développer et offre un grand potentiel pour de nouvelles avancées en informatique et dans de nombreuses autres disciplines. Il est tout à fait approprié de leur décerner le prix le plus prestigieux dans notre domaine".
Lors d'une conférence donnée en 1947, Alan Turing a déclaré : "Ce que nous voulons, c'est une machine capable d'apprendre par l'expérience"", note Jeff Dean, premier vice-président de Google.
"L'apprentissage par renforcement, tel qu'il a été mis au point par Barto et Sutton, répond directement au défi de Turing. Leurs travaux ont été au cœur des progrès réalisés dans le domaine de l'IA au cours des dernières décennies. Les outils qu'ils ont mis au point restent un pilier central de l'essor de l'IA et ont permis des avancées majeures, attiré des légions de jeunes chercheurs et généré des milliards de dollars d'investissements. L'impact de RL se poursuivra à l'avenir. Google est fier de parrainer le prix ACM A.M. Turing et d'honorer les personnes qui ont façonné les technologies qui améliorent notre vie.