Name: RL Theory Seminar: Adaptive Reward-Free Exploration
Start: 2020-10-13

Séminaire sur la théorie de la RL : Exploration adaptative sans récompense

Lorsque

13 oct. 2020 - 13 oct. 2020

11 H 00 - 12 H 00

Où

En ligne

Amii est fier de soutenir la communauté croissante de l'IA dans notre province. Les séminaires sur la théorie de la RL sont organisés de manière indépendante par des chercheurs : Gergely Neu, Ciara Pike-Burke, et Csaba Szepesvári, membre d'Amii.

Intervenant : Pierre Ménard (Inria Lille)

Papier : https://arxiv.org/abs/2006.06294

Auteurs : Emilie Kaufmann, Pierre Ménard, Omar Darwiche Domingues, Anders Jonsson, Edouard Leurent, Michal Valko

Résumé : L'exploration sans récompense est un cadre d'apprentissage par renforcement récemment étudié par Jin et al. qui l'abordent en exécutant plusieurs algorithmes avec des garanties de regret en parallèle. Dans notre travail, nous proposons plutôt une approche plus adaptative pour l'exploration sans récompense qui réduit directement les limites supérieures de l'erreur maximale d'estimation du MDP. Nous montrons que, de manière intéressante, notre algorithme UCRL sans récompense peut être considéré comme une variante d'un algorithme de Fiechter de 1994, proposé à l'origine pour un objectif différent que nous appelons identification de la meilleure politique. Nous prouvons que RF-UCRL a besoin de O(SAH^4/ε^2)ln(1/δ)) épisodes pour produire, avec une probabilité de 1-δ, une ε-approximation de la politique optimale pour toute fonction de récompense. Nous la comparons empiriquement à des stratégies oracle utilisant un modèle génératif.

Séminaire sur la théorie de la RL : Exploration adaptative sans récompense

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle