Séminaire sur la théorie de la RL : Exploration adaptative sans récompense
En ligne
En ligne
Amii est fier de soutenir la communauté croissante de l'IA dans notre province. Les séminaires sur la théorie de la RL sont organisés de manière indépendante par des chercheurs : Gergely Neu, Ciara Pike-Burke, et Csaba Szepesvári, membre d'Amii.
Intervenant : Pierre Ménard (Inria Lille)
Papier : https://arxiv.org/abs/2006.06294
Auteurs : Emilie Kaufmann, Pierre Ménard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko
Résumé : L'exploration sans récompense est un cadre d'apprentissage par renforcement récemment étudié par Jin et al. qui l'abordent en exécutant plusieurs algorithmes avec des garanties de regret en parallèle. Dans notre travail, nous proposons plutôt une approche plus adaptative pour l'exploration sans récompense qui réduit directement les limites supérieures de l'erreur maximale d'estimation du MDP. Nous montrons que, de manière intéressante, notre algorithme UCRL sans récompense peut être considéré comme une variante d'un algorithme de Fiechter de 1994, proposé à l'origine pour un objectif différent que nous appelons identification de la meilleure politique. Nous prouvons que RF-UCRL a besoin de O(SAH^4/ε^2)ln(1/δ)) épisodes pour produire, avec une probabilité de 1-δ, une ε-approximation de la politique optimale pour toute fonction de récompense. Nous la comparons empiriquement à des stratégies oracle utilisant un modèle génératif.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.