Nouvelles

Les discussions de l'heure du thé 2021 : Première semaine

Les Tea Time Talks sont de retour ! Tout au long de l'été, assistez à des exposés de 20 minutes sur des idées de départ, des recherches futures et des sujets techniques présentés par des étudiants, des professeurs et des invités. Présentées par Amii et le laboratoire RLAI de l'Université de l'Alberta, les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer.

Regardez maintenant une sélection de conférences de la première semaine de la série :

Panel RLAI

Le premier Tea Time Talk de 2021 présente un panel de chercheurs en apprentissage par renforcement (RL) - tous boursiers Amii, titulaires d'une chaire d'IA du CIFAR et professeurs de l'Université d'Alberta. Martha White animera ce panel composé d'Adam White, Csaba Szepesvári, Matthew E. Taylor et Michael Bowling.

Richard S. Sutton : Gaps in the Foundations of Planning with Approximation (en anglais)

Résumé : La planification, un processus computationnel largement considéré comme essentiel à l'intelligence, consiste à imaginer des cours d'action et leurs conséquences, et à décider à l'avance lesquels faire. Dans l'architecture standard d'agent RLAI, le composant qui fait l'imagination des conséquences est appelé le modèle de l'environnement, et la décision à l'avance est via un changement dans la politique de l'agent. La planification et l'apprentissage de modèles ont été étudiés pendant sept décennies et restent pourtant largement non résolus face à une véritable approximation - des modèles qui restent approximatifs (ne deviennent pas exacts) dans la limite des données élevées. Dans cet exposé, Richard Sutton évalue brièvement les défis de l'extension de la planification de style RL (itération de valeur) dans les aspects les plus importants : récompense moyenne, observabilité partielle, transitions stochastiques et abstraction temporelle (options). Il estime que ces extensions sont simples jusqu'à ce qu'elles soient combinées à une véritable approximation du modèle, auquel cas nous avons à peine une idée de la façon de procéder de manière évolutive. Rich suggère les idées de modèles d'attente, de "métadonnées" et de recherche comme stratégies générales d'apprentissage de modèles d'environnement approximatifs pouvant être utilisés dans la planification.

Rupam Mahmood : Nouvelles formes de gradients de politique pour l'estimation sans modèle

Résumé : Les méthodes de gradient de politique sont un choix naturel pour l'apprentissage d'une politique paramétrée, particulièrement pour les actions continues, d'une manière sans modèle. Ces méthodes mettent à jour les paramètres de la politique avec une descente de gradient stochastique en estimant le gradient d'un objectif de politique. Beaucoup de ces méthodes peuvent être dérivées ou reliées à un théorème bien connu sur le gradient de la politique qui écrit le vrai gradient sous la forme du gradient de la vraisemblance de l'action, ce qui convient à l'estimation sans modèle. Dans cet exposé, Rupam Mahmood revisite ce théorème et cherche d'autres formes d'écriture du gradient réel qui pourraient donner lieu à de nouvelles classes de méthodes de gradient de politique.


Vous aimez ce que vous apprenez ici ? Plongez plus profondément dans le monde de l'apprentissage par renforcement avec la spécialisation en apprentissage par renforcement, proposée par l'Université d'Alberta et Amii. Enseignée par Martha White et Adam White, cette spécialisation explore la façon dont les solutions d'apprentissage par renforcement aident à résoudre des problèmes du monde réel par le biais d'une interaction par essais et erreurs, en montrant aux apprenants comment mettre en œuvre une solution d'apprentissage par renforcement complète du début à la fin. Inscrivez-vous à cette spécialisation dès maintenant!

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !