Institut de l'intelligence artificielle de l'Alberta

Rich Sutton reçoit le prix A.M. Turing pour la recherche sur l'apprentissage par renforcement

Publié

5 mars 2025

Catégories

Mises à jour

Sujet

Recherche

Richard Sutton et Andrew Barto récompensés pour leur recherche fondamentale sur l'apprentissage par renforcement

L'ACM, l'Association for Computing Machinery, a nommé aujourd'hui Richard S. Sutton, boursier de l'Amii et titulaire de la chaire canadienne d'IA, et Andrew G. Barto, professeur émérite d'informatique à l'Université du Massachusetts Amherst, lauréats du prix ACM A.M. Turing 2024 pour avoir développé les fondements conceptuels et algorithmiques de l'apprentissage par renforcement. Dans une série d'articles publiés à partir des années 1980, Barto et Sutton ont présenté les principales idées, construit les fondements mathématiques et développé d'importants algorithmes pour l'apprentissage par renforcement, l'une des approches les plus importantes pour la création de systèmes intelligents.

Le prix ACM A.M. Turing, souvent appelé le "prix Nobel de l'informatique", est doté d'un million de dollars et bénéficie du soutien financier de Google, Inc. Le prix porte le nom d'Alan M. Turing, le mathématicien britannique qui a formulé les fondements mathématiques de l'informatique.

Qu'est-ce que l'apprentissage par renforcement ?

Barto et Sutton, conjointement et avec d'autres, ont développé un grand nombre d'approches algorithmiques de base pour le RL. Il s'agit notamment de leur principale contribution, l'apprentissage par différence temporelle, qui a permis une avancée importante dans la résolution des problèmes de prédiction de la récompense, ainsi que des méthodes de gradient de politique et de l'utilisation des réseaux neuronaux comme outil de représentation des fonctions apprises. Ils ont également proposé des modèles d'agents combinant l'apprentissage et la planification, démontrant la valeur de l'acquisition de connaissances sur l'environnement comme base de la planification.

Leur manuel, Reinforcement Learning : An Introduction (1998), qui reste la référence dans ce domaine et a été cité plus de 75 000 fois. Il a permis à des milliers de chercheurs de comprendre et de contribuer à ce domaine émergent et continue d'inspirer de nombreuses activités de recherche importantes dans le domaine de l'informatique aujourd'hui.

Bien que les algorithmes de Barto et Sutton aient été développés il y a plusieurs décennies, des avancées majeures dans les applications pratiques de l'apprentissage par renforcement ont été réalisées au cours des quinze dernières années en fusionnant l'apprentissage par renforcement avec des algorithmes d'apprentissage profond (dont les pionniers sont Bengio, Hinton et LeCun, lauréats du prix Turing 2018). C'est ainsi qu'est née la technique de l'apprentissage par renforcement profond.

L'exemple le plus marquant de RL a été la victoire du programme informatique AlphaGo sur les meilleurs joueurs de go humains en 2016 et 2017. Une autre réalisation majeure récente a été le développement du chatbot ChatGPT. ChatGPT est un grand modèle de langage (LLM) formé en deux phases, dont la seconde utilise une technique appelée apprentissage par renforcement à partir du feedback humain (RLHF), pour capturer les attentes humaines.

Rich Sutton : L'importance des idées

Rich Sutton a consacré sa carrière à la compréhension de l'esprit, ce qu'il appelle"l'un des rares grands biens de l'univers".

Découvrez sa façon unique de penser et l'immense impact qu'il a eu sur la science de l'IA.

Lire la suite

Conversation avec Rich Sutton

Rich Sutton, lauréat du prix A.M. Turing, s'entretient avec Cam Linke, PDG d'Amii

La nouvelle voie de Rich Sutton pour l'IA - Podcast approximativement correct

L'apprentissage par renforcement a également été couronné de succès dans de nombreux autres domaines. Un exemple de recherche très médiatisé est l'apprentissage de la motricité des robots dans la manipulation et la résolution d'un Rubik's Cube, qui a montré qu'il était possible d'effectuer tout l'apprentissage par renforcement en simulation, tout en réussissant finalement dans le monde réel, qui est très différent.

Parmi les autres domaines figurent le contrôle de la congestion des réseaux, la conception de puces, la publicité sur internet, l'optimisation, l'optimisation de la chaîne d'approvisionnement mondiale, l'amélioration du comportement et des capacités de raisonnement des chatbots, et même l'amélioration des algorithmes pour l'un des plus vieux problèmes de l'informatique, la multiplication matricielle.

"Les travaux de Barto et Sutton démontrent l'immense potentiel de l'application d'une approche multidisciplinaire à des défis de longue date dans notre domaine", explique Yannis Ioannidis, président de l'ACM.

"Des domaines de recherche allant des sciences cognitives et de la psychologie aux neurosciences ont inspiré le développement de l'apprentissage par renforcement, qui a jeté les bases de certaines des avancées les plus importantes en matière d'intelligence artificielle et nous a permis de mieux comprendre le fonctionnement du cerveau. Barto et

Le travail de Sutton n'est pas un tremplin que nous avons maintenant dépassé. L'apprentissage par renforcement continue de se développer et offre un grand potentiel pour de nouvelles avancées en informatique et dans de nombreuses autres disciplines. Il est tout à fait approprié de leur décerner le prix le plus prestigieux dans notre domaine".

Lors d'une conférence donnée en 1947, Alan Turing a déclaré : "Ce que nous voulons, c'est une machine capable d'apprendre par l'expérience"", note Jeff Dean, premier vice-président de Google.

"L'apprentissage par renforcement, tel qu'il a été mis au point par Barto et Sutton, répond directement au défi de Turing. Leurs travaux ont été au cœur des progrès réalisés dans le domaine de l'IA au cours des dernières décennies. Les outils qu'ils ont mis au point restent un pilier central de l'essor de l'IA et ont permis des avancées majeures, attiré des légions de jeunes chercheurs et généré des milliards de dollars d'investissements. L'impact de RL se poursuivra à l'avenir. Google est fier de parrainer le prix ACM A.M. Turing et d'honorer les personnes qui ont façonné les technologies qui améliorent notre vie.

Les dernières recherches de Rich Sutton

Prix A.M. Turing de Sutton - Actualités

Le prix Turing décerné à deux pionniers de l'intelligence artificielle

Les lauréats du prix Turing mettent en garde contre le déploiement dangereux de modèles d'IA

Les pionniers de l'apprentissage par renforcement remportent le prix Turing

Les pionniers de l'apprentissage par renforcement nommés lauréats du prix Turing

Les pionniers de l'IA qui ont canalisé des machines "hédonistes" remportent le premier prix d'informatique

Andrew Barto et Richard Sutton remportent le prix Turing pour une astuce d'apprentissage de l'IA

Richard Sutton, nouveau lauréat du prix Turing, qualifie les pessimistes de "hors sujet" et évoque la voie vers une IA de type humain.

Richard Sutton, pionnier de l'IA en Alberta, remporte le prix Turing tant convoité

Richard Sutton, pionnier de l'IA à Edmonton, remporte le prix Turing

Les derniers lauréats du prix Turing mettent à nouveau en garde contre les dangers de l'IA

Des spécialistes de l'IA remportent le prix Turing pour la technique qui a permis le triomphe d'AlphaGo aux échecs

Les algorithmes des années 1980 sont à l'origine des percées actuelles en matière d'IA et ont valu aux chercheurs le prix Turing

Les pionniers de l'IA Andrew Barto et Richard Sutton remportent le prix Turing 2025 pour leurs contributions révolutionnaires à l'apprentissage par renforcement.

Andrew Barto et Richard Sutton, pionniers dans le domaine de l'apprentissage par renforcement, remportent le prix AM Turing

Partager