Poste de recherche

Évaluation de politique hors politique de récompense moyenne avec approximation de fonction

Résumé :

Nous considérons l'évaluation de politique hors politique avec approximation de fonction (FA) dans les MDP à récompense moyenne, où l'objectif est d'estimer à la fois le taux de récompense et la fonction de valeur différentielle. Pour ce problème, le bootstrap est nécessaire et, avec l'apprentissage hors politique et l'AF, il en résulte la triade mortelle (Sutton & Barto, 2018). Pour résoudre le problème de la triade fatale, nous proposons deux nouveaux algorithmes, reproduisant le succès célèbre des algorithmes de TD de gradient dans le cadre de la récompense moyenne. En termes d'estimation de la fonction de valeur différentielle, les algorithmes sont les premiers algorithmes convergents d'approximation de fonction linéaire hors politique. En termes d'estimation du taux de récompense, les algorithmes sont les premiers algorithmes convergents d'approximation de fonction linéaire hors politique qui ne nécessitent pas l'estimation du rapport de densité. Nous démontrons empiriquement l'avantage des algorithmes proposés, ainsi que de leurs variantes non linéaires, sur une approche compétitive basée sur le rapport de densité, dans un domaine simple ainsi que dans des tâches difficiles de simulation de robots.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !