L'histoire de l'apprentissage par renforcement chez Amii

L'histoire de l'apprentissage par renforcement chez Amii

Depuis plus de 20 ans, Amii, ses chercheurs associés et ses chercheurs sont au cœur de la recherche et du développement dans le domaine de l'apprentissage par renforcement.

From defining the very foundation of modern AI to tackling some of the world's most complex challenges, the journey of Reinforcement Learning (RL) is a compelling story of relentless innovation.

Chronologie de RL

L'apprentissage par renforcement: un bref historique

Bon nombre des moments clés et des découvertes marquants de l'histoire de l'apprentissage par renforcement ont eu lieu avec Amii et son équipe au cœur de l'action.

1998

Richard Sutton est littéralement l'auteur de référence en matière de RL

L'histoire de l'apprentissage en IA moderne commence avec l'apprentissage par renforcement (RL), grâce aux travaux pionniers de Richard S. Sutton et de son partenaire de longue date, Andrew G. Barto. Leur ouvrage de référence, *Reinforcement Learning: An Introduction*, a établi les principes fondamentaux qui définissent la manière dont un système intelligent doit apprendre : en prenant des décisions (actions) dans un environnement, en recevant un retour d'information (récompenses) et en optimisant sa stratégie afin de maximiser les récompenses à long terme.

Et alors ?!

Cet ouvrage reste la référence en matière d'apprentissage par renforcement, non seulement en tant que domaine d'étude universitaire, mais aussi en ce qui concerne ses applications concrètes.

2002

Amii est fondée

Amii a été fondé en 2002 sous le nom d'Alberta Ingenuity Centre For Machine Learning (AICML) par quatre chercheurs visionnaires. Créé au sein du département d'informatique de l'Université de l'Alberta, l'AICML s'est rapidement imposé comme l'un des premiers centres influents de recherche en apprentissage automatique.

Et alors ?!

Cela a permis à Edmonton de se faire connaître comme pôle mondial de l'IA, bien avant que l'expression « intelligence artificielle » ne devienne courante.

2003

Richard Sutton rejoint Amii

Le professeur Sutton est recruté par l'Université de l'Alberta et l'Amii (AICML), où il met en place le laboratoire RLAI (Reinforcement Learning and Artificial Intelligence) – et où il continue aujourd'hui encore à enseigner, à encadrer des étudiants et à mener des recherches.

Et alors ?!

Cette initiative a consolidé la position d'Edmonton en tant que pôle d'excellence dans le domaine de l'apprentissage par renforcement, attirant ainsi les plus grands esprits du monde en Alberta.

2007

Jonathan Schaeffer, d'Amii, résout des problèmes de dames

Jonathan Schaeffer, chercheur à l'Amii et professeur d'informatique à l'Université de l'Alberta, a dirigé l'équipe qui a développé le logiciel Chinook, lequel a « résolu » le jeu de dames. Cette avancée majeure dans l'histoire de l'IA a notamment permis de relever le défi de la récompense différée en apprentissage par renforcement : c'est-à-dire la difficulté d'enseigner à une IA qu'une action effectuée à un moment donné peut ne porter ses fruits que bien plus tard dans la partie.

Et alors ?!

Tout comme la victoire historique de Deep Blue aux échecs, ce jeu était à l'époque le plus difficile à résoudre entièrement et a marqué une étape décisive dans le domaine de l'intelligence artificielle et de l'informatique.

2013

Michael Bowling, d'Amii, développe le benchmark Atari

Michael Bowling, membre de l'Amii, titulaire de la chaire CIFAR en IA au Canada et professeur à l'Université de l'Alberta, dirige une équipe chargée de mettre au point le benchmark Atari, destiné à mesurer l'efficacité des algorithmes d'apprentissage par renforcement. Ce benchmark, qui repose en réalité sur le gameplay des 57 jeux originaux de l'Atari 2600, est officiellement connu sous le nom d'Arcade Learning Environment (ALE) – mais il est beaucoup plus couramment désigné par son nom inspiré du monde du jeu vidéo.

Et alors ?!

Le benchmark Atari reste une référence largement citée par les chercheurs et les institutions du monde entier, notamment par Google DeepMind dans ses travaux sur les réseaux Q profonds (DQN).

2014

Patrick Pilarski, d'Amii, entame ses travaux de recherche au Blinc Lab

Depuis 2014, Patrick Pilarski, boursier Amii, et d'autres chercheurs du Blinc Lab mènent des travaux de recherche novateurs sur le contrôle des prothèses. Ces travaux ont abouti aujourd'hui à la mise au point de prothèses adaptatives qui exploitent l'apprentissage par renforcement pour apprendre réellement des personnes qui les utilisent. Ainsi, loin d'être rigides ou difficiles à contrôler, ces prothèses s'adaptent aux mouvements de l'utilisateur et finissent par donner l'impression de faire véritablement partie du corps.

Et alors ?!

Cette application concrète de l'apprentissage par renforcement dans le domaine des prothèses redonne leur autonomie aux utilisateurs et transforme leur vie.

2015

Michael Bowling remporte le tournoi de poker… pour la deuxième fois !

Bowling et son groupe de recherche sur le poker informatique ont ensuite réussi à maîtriser le poker Texas Hold’em en tête-à-tête avec limite en 2015, grâce à Cepheus, la première IA capable de résoudre ce jeu à « information imparfaite ». Puis, en 2017, ce groupe a franchi une étape décisive en battant des joueurs professionnels au poker No-Limit grâce à son modèle DeepStack. Cepheus a prouvé que ses méthodes pouvaient gérer les informations cachées, rendant ses algorithmes d'IA directement applicables aux stratégies complexes du monde réel dans des domaines tels que la finance et les négociations. DeepStack a démontré que l'IA pouvait gérer l'incertitude des jeux du monde réel avec des informations imparfaites.

Et alors ?!

La résolution de jeux complexes est au cœur de la recherche en intelligence artificielle, le poker – un jeu bien plus « complexe » – constituant la prochaine grande étape après les dames et les échecs.

2016

AlphaGo, le programme de DeepMind, maîtrise le jeu de go

Dans l’un des moments les plus marquants de l’histoire de l’IA, AlphaGo, développé par DeepMind, a battu un champion du monde de go — un exploit que beaucoup pensaient ne pas voir avant plusieurs décennies. Bon nombre des chercheurs principaux de l’équipe AlphaGo, comme David Silver, étaient diplômés de l’Université de l’Alberta et avaient été formés par des chercheurs de l’Amii, tels que Richard Sutton.

Et alors ?!

La résolution du jeu de Go était considérée comme un défi colossal pour l'informatique et l'intelligence artificielle, que l'on pensait encore loin d'être relevé – et qui a servi de « preuve » de l'efficacité de l'apprentissage par renforcement.

2017

DeepMind ouvre un bureau à Edmonton

En 2017, DeepMind, qui appartient désormais à Google (Alphabet), a ouvert son premier centre de recherche hors du Royaume-Uni, ici même à Edmonton, au siège social d’Amii. Richard Sutton, le conseiller scientifique de la première heure de DeepMind, a été nommé à la tête de cet institut basé à Edmonton.

Et alors ?!

Le bureau de DeepMind situé à Edmonton a été le premier bureau de DeepMind à ouvrir ses portes en dehors du Royaume-Uni. Cette initiative a permis à Edmonton et à l'Amii de se faire connaître comme un pôle mondial d'excellence en matière d'IA.

2018

RLCore Technologies lance

Martha White et Adam, chercheurs chez Amii, lancent leur propre start-up, RL Core, afin de mettre leur expertise en apprentissage par renforcement au service du secteur des commandes industrielles. Leurs systèmes gèrent de manière intelligente la qualité et le traitement de l'eau, contribuant ainsi à réaliser d'importants gains d'efficacité et à assurer le bon fonctionnement des infrastructures environnementales essentielles.

Et alors ?!

Cet exemple fait sortir l'apprentissage par renforcement du domaine théorique pour l'appliquer au monde réel, en utilisant l'intelligence artificielle pour protéger notre environnement et gérer plus efficacement les ressources essentielles.