Une perspective optimiste sur l'apprentissage par renforcement hors ligne

Résumé

L'apprentissage par renforcement (RL) hors politique utilisant un ensemble fixe de données hors ligne d'interactions enregistrées est une considération importante dans les applications du monde réel. Cet article étudie l'apprentissage par renforcement hors ligne à l'aide de l'ensemble de données de relecture DQN comprenant l'expérience de relecture complète d'un agent DQN sur 60 jeux Atari 2600. Nous démontrons que les algorithmes récents de RL profond hors politique, même lorsqu'ils sont entraînés uniquement sur ce jeu de données fixe, surpassent l'agent DQN entièrement entraîné. Afin d'améliorer la généralisation dans le cadre hors ligne, nous présentons Random Ensemble Mixture (REM), un algorithme robuste d'apprentissage de la qualité qui applique la cohérence optimale de Bellman sur des combinaisons convexes aléatoires de plusieurs estimations de la valeur de la qualité. Le REM hors ligne entraîné sur l'ensemble de données de relecture DQN surpasse les bases solides de RL. Les études d'ablation soulignent le rôle de la taille et de la diversité de l'ensemble de données hors ligne ainsi que du choix de l'algorithme dans nos résultats positifs. Dans l'ensemble, les résultats obtenus ici présentent une vision optimiste selon laquelle les algorithmes robustes de RL entraînés sur des ensembles de données hors ligne suffisamment grands et diversifiés peuvent conduire à des politiques de haute qualité. L'ensemble de données de relecture DQN peut servir de référence en matière de RL hors ligne et est en source ouverte.

Une perspective optimiste sur l'apprentissage par renforcement hors ligne

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle