Rêve lucide pour le retour d'expérience : Rafraîchir les états passés avec la politique actuelle

Résumé

Le rejeu d'expérience (ER) améliore l'efficacité des données des algorithmes d'apprentissage par renforcement (RL) hors politique en permettant à un agent de stocker et de réutiliser ses expériences passées dans un tampon de rejeu. Bien que de nombreuses techniques aient été proposées pour améliorer l'ER en biaisant la façon dont les expériences sont échantillonnées à partir de la mémoire tampon, elles n'ont jusqu'à présent pas pris en compte les stratégies de rafraîchissement des expériences à l'intérieur de la mémoire tampon. Dans ce travail, nous présentons Lucid Dreaming for Experience Replay (LiDER), un cadre conceptuellement nouveau qui permet de rafraîchir les expériences de relecture en tirant parti de la politique actuelle de l'agent. LiDER se compose de trois étapes : Premièrement, LiDER ramène un agent à un état antérieur. Ensuite, à partir de cet état, LiDER permet à l'agent d'exécuter une séquence d'actions en suivant sa politique actuelle - comme si l'agent "rêvait" du passé et pouvait essayer différents comportements pour rencontrer de nouvelles expériences dans le rêve. Troisièmement, LiDER stocke et réutilise la nouvelle expérience si elle s'est avérée meilleure que celle vécue précédemment par l'agent, c'est-à-dire pour rafraîchir sa mémoire. LiDER est conçu pour être facilement incorporé dans des algorithmes de RL multi-travailleurs, hors politique, qui utilisent ER ; nous présentons dans ce travail une étude de cas d'application de LiDER à un algorithme basé sur la critique d'acteur. Les résultats montrent que LiDER améliore constamment les performances par rapport à la ligne de base dans six jeux Atari 2600. Notre implémentation open-source de LiDER et les données utilisées pour générer tous les graphiques de ce travail sont disponibles à cette URL http.

Rêve lucide pour le retour d'expérience : Rafraîchir les états passés avec la politique actuelle

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle