Poste de recherche

Bootstrapping de l'évaluation Q ajustée pour l'inférence hors politique

Résumé :

Le bootstrapping fournit une approche flexible et efficace pour évaluer la qualité de l'apprentissage par renforcement par lots, mais ses propriétés théoriques sont mal comprises. Dans cet article, nous étudions l'utilisation du bootstrap dans l'évaluation hors politique (OPE), et en particulier, nous nous concentrons sur l'évaluation Q ajustée (FQE) qui est connue pour être minimax-optimale dans les cas des modèles tabulaires et linéaires. Nous proposons une méthode de bootstrapping FQE pour inférer la distribution de l'erreur d'évaluation de la politique et nous montrons que cette méthode est asymptotiquement efficace et distributivement cohérente pour l'inférence statistique hors politique. Pour surmonter la limite de calcul du bootstrapping, nous adaptons une procédure de sous-échantillonnage qui améliore le temps d'exécution d'un ordre de grandeur. Nous évaluons numériquement la méthode de bootstrapping dans des environnements RL classiques pour l'estimation de l'intervalle de confiance, l'estimation de la variance de l'évaluateur hors politique et l'estimation de la corrélation entre plusieurs évaluateurs hors politique.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !