Poste de recherche

CoinDICE : Estimation de l'intervalle de confiance hors politique

Résumé

Nous étudions l'évaluation hors-politique à haute confiance et agnostique du comportement dans l'apprentissage par renforcement, où l'objectif est d'estimer un intervalle de confiance sur la valeur d'une politique cible, en ayant seulement accès à un ensemble de données d'expérience statiques collectées par des politiques de comportement inconnues. En partant d'une intégration dans l'espace des fonctions de la formulation du programme linéaire de la fonction Q, nous obtenons un problème d'optimisation avec des contraintes d'équation d'estimation généralisées. En appliquant la méthode de vraisemblance empirique généralisée au Lagrangien résultant, nous proposons CoinDICE, un algorithme nouveau et efficace pour le calcul des intervalles de confiance. Théoriquement, nous prouvons que les intervalles de confiance obtenus sont valides, à la fois dans les régimes asymptotique et d'échantillon fini. Empiriquement, nous montrons dans une variété de benchmarks que les estimations des intervalles de confiance sont plus serrées et plus précises que les méthodes existantes.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !