Poste de recherche

Rêve lucide pour le retour d'expérience : Rafraîchir les états passés avec la politique actuelle

Résumé

Le rejeu d'expérience (ER) améliore l'efficacité des données des algorithmes d'apprentissage par renforcement (RL) hors politique en permettant à un agent de stocker et de réutiliser ses expériences passées dans un tampon de rejeu. Bien que de nombreuses techniques aient été proposées pour améliorer l'ER en biaisant la façon dont les expériences sont échantillonnées à partir de la mémoire tampon, elles n'ont jusqu'à présent pas pris en compte les stratégies de rafraîchissement des expériences à l'intérieur de la mémoire tampon. Dans ce travail, nous présentons Lucid Dreaming for Experience Replay (LiDER), un cadre conceptuellement nouveau qui permet de rafraîchir les expériences de relecture en tirant parti de la politique actuelle de l'agent. LiDER se compose de trois étapes : Premièrement, LiDER ramène un agent à un état antérieur. Ensuite, à partir de cet état, LiDER permet à l'agent d'exécuter une séquence d'actions en suivant sa politique actuelle - comme si l'agent "rêvait" du passé et pouvait essayer différents comportements pour rencontrer de nouvelles expériences dans le rêve. Troisièmement, LiDER stocke et réutilise la nouvelle expérience si elle s'est avérée meilleure que celle vécue précédemment par l'agent, c'est-à-dire pour rafraîchir sa mémoire. LiDER est conçu pour être facilement incorporé dans des algorithmes de RL multi-travailleurs, hors politique, qui utilisent ER ; nous présentons dans ce travail une étude de cas d'application de LiDER à un algorithme basé sur la critique d'acteur. Les résultats montrent que LiDER améliore constamment les performances par rapport à la ligne de base dans six jeux Atari 2600. Notre implémentation open-source de LiDER et les données utilisées pour générer tous les graphiques de ce travail sont disponibles à cette URL http.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !