Nouvelles

Les discussions de l'heure du thé 2021 : Deuxième semaine

Les Tea Time Talks sont de retour ! Tout au long de l'été, assistez à des exposés de 20 minutes sur des idées de départ, des recherches futures et des sujets techniques présentés par des étudiants, des professeurs et des invités. Présentées par Amii et le laboratoire RLAI de l'Université de l'Alberta, les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer.

Regardez maintenant une sélection de conférences de la deuxième semaine de la série :

Michael Bowling : Rationalité à posteriori

Résumé : Dans cette présentation, Michael Bowling examine certains des principes souvent non déclarés communs à la recherche sur l'apprentissage multi-agent, suggérant qu'ils pourraient être responsables de notre retard. Et, plus important encore, qu'ils pourraient freiner bien plus que l'apprentissage multi-agent. En réponse, il propose un ensemble alternatif de principes, qui mène à la vision de la rationalité rétrospective, enracinée dans l'apprentissage en ligne (et liée aux équilibres corrélés). Il remet en question les approches bien-aimées de formation puis de test, et l'accent mis sur l'évaluation des artefacts, avec un regard tourné vers l'avenir et une comparaison avec l'optimal. Il les remplace par une durée de vie unique et se concentre sur l'évaluation du comportement avec un regard rétrospectif et une comparaison avec les déviations ciblées du comportement. Cet exposé est le point culminant d'une collaboration d'un an qui présente une alternative aux équilibres de Nash (avec des articles dans AAAI et ICML cette année). Michael ne fait qu'effleurer les contributions techniques de ces articles, se concentrant plutôt sur les principes plus philosophiques. Consultez les articles si vous voulez aller plus loin : Hindsight and Sequential Rationality of Correlated Play & Efficient Deviation Types and Learning for Hindsight Rationality in Extensive-Form Games.

Patrick Pilarski : Le constructivisme dans les interfaces homme-machine à couplage étroit

Résumé : Les objectifs de l'exposé de Patrick Pilarski sont les suivants : 1) Définir les termes "constructivisme" et "couplage étroit" dans le contexte des interfaces homme-machine (en particulier dans le cadre des neuroprothèses) ; 2) Proposer que pour un potentiel maximal, les interfaces à couplage étroit devraient être partiellement ou entièrement constructivistes ; 3) Donner des exemples concrets de la façon dont cette perspective conduit à des propriétés bénéfiques dans les interactions à couplage étroit, tirés de ses 10 dernières années de travail sur la construction de prédictions et d'états dans les interfaces de prothèses de membres supérieurs.

Rupam Mahmood : Nouvelles formes de gradients de politique pour l'estimation sans modèle

Résumé : Les méthodes de gradient de politique sont un choix naturel pour l'apprentissage d'une politique paramétrée, particulièrement pour les actions continues, d'une manière sans modèle. Ces méthodes mettent à jour les paramètres de la politique avec une descente de gradient stochastique en estimant le gradient d'un objectif de politique. Beaucoup de ces méthodes peuvent être dérivées ou reliées à un théorème bien connu sur le gradient de la politique qui écrit le vrai gradient sous la forme du gradient de la vraisemblance de l'action, ce qui convient à l'estimation sans modèle. Dans cet exposé, Rupam Mahmood revisite ce théorème et cherche d'autres formes d'écriture du gradient réel qui pourraient donner lieu à de nouvelles classes de méthodes de gradient de politique.


Vous aimez ce que vous apprenez ici ? Plongez plus profondément dans le monde de l'apprentissage par renforcement avec la spécialisation en apprentissage par renforcement, proposée par l'Université d'Alberta et Amii. Enseignée par Martha White et Adam White, cette spécialisation explore la façon dont les solutions d'apprentissage par renforcement aident à résoudre des problèmes du monde réel par le biais d'une interaction par essais et erreurs, en montrant aux apprenants comment mettre en œuvre une solution d'apprentissage par renforcement complète du début à la fin. Inscrivez-vous à cette spécialisation dès maintenant!

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !