Poste de recherche

Algorithmes emphatiques pour l'apprentissage par renforcement profond

Résumé :

L'apprentissage hors politique nous permet d'apprendre des politiques de comportement possibles à partir de l'expérience générée par une politique de comportement différente. Les algorithmes d'apprentissage par différence temporelle (TD) peuvent devenir instables lorsqu'ils sont combinés à l'approximation de fonctions et à l'échantillonnage hors politique - c'est ce qu'on appelle la "triade fatale". L'algorithme de différence temporelle emphatique (ETD(λ)) assure la convergence dans le cas linéaire en pondérant de manière appropriée les mises à jour TD(λ). Dans cet article, nous étendons l'utilisation des méthodes emphatiques aux agents d'apprentissage par renforcement profond. Nous montrons que l'adaptation naïve de l'ETD(λ) aux algorithmes populaires d'apprentissage par renforcement profond, qui utilisent des retours multi-étapes en vue avant, donne des performances médiocres. Nous dérivons ensuite de nouveaux algorithmes emphatiques à utiliser dans le contexte de tels algorithmes, et nous démontrons qu'ils apportent des avantages notables dans de petits problèmes conçus pour mettre en évidence l'instabilité des méthodes de TD. Enfin, nous avons observé une amélioration des performances lors de l'application de ces algorithmes à l'échelle sur des jeux Atari classiques de l'Arcade Learning Environment.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !