Poste de recherche

Une approche d'entropie maximale pour l'évaluation de la non-politique dans les PDM à récompense moyenne.

Résumé

Ce travail se concentre sur l'évaluation hors politique (OPE) avec approximation de fonction dans les processus de décision de Markov (PDM) non actualisés à horizon infini. Pour les PDM qui sont ergodiques et linéaires (c'est-à-dire où les récompenses et la dynamique sont linéaires dans certaines caractéristiques connues), nous fournissons la première limite d'erreur OPE en échantillon fini, étendant les résultats existants au-delà des cas épisodiques et actualisés. Dans un cadre plus général, lorsque la dynamique des caractéristiques est approximativement linéaire et pour des récompenses arbitraires, nous proposons une nouvelle approche pour estimer les distributions stationnaires avec une approximation de fonction. Nous formulons ce problème comme la recherche de la distribution d'entropie maximale soumise à la correspondance des attentes des caractéristiques dans le cadre de la dynamique empirique. Nous montrons qu'il en résulte une distribution de famille exponentielle dont les statistiques suffisantes sont les caractéristiques, parallèlement aux approches de l'entropie maximale dans l'apprentissage supervisé. Nous démontrons l'efficacité des approches OPE proposées dans plusieurs environnements.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !