Poste de recherche

Une perspective optimiste sur l'apprentissage par renforcement hors ligne

Résumé

L'apprentissage par renforcement (RL) hors politique utilisant un ensemble fixe de données hors ligne d'interactions enregistrées est une considération importante dans les applications du monde réel. Cet article étudie l'apprentissage par renforcement hors ligne à l'aide de l'ensemble de données de relecture DQN comprenant l'expérience de relecture complète d'un agent DQN sur 60 jeux Atari 2600. Nous démontrons que les algorithmes récents de RL profond hors politique, même lorsqu'ils sont entraînés uniquement sur ce jeu de données fixe, surpassent l'agent DQN entièrement entraîné. Afin d'améliorer la généralisation dans le cadre hors ligne, nous présentons Random Ensemble Mixture (REM), un algorithme robuste d'apprentissage de la qualité qui applique la cohérence optimale de Bellman sur des combinaisons convexes aléatoires de plusieurs estimations de la valeur de la qualité. Le REM hors ligne entraîné sur l'ensemble de données de relecture DQN surpasse les bases solides de RL. Les études d'ablation soulignent le rôle de la taille et de la diversité de l'ensemble de données hors ligne ainsi que du choix de l'algorithme dans nos résultats positifs. Dans l'ensemble, les résultats obtenus ici présentent une vision optimiste selon laquelle les algorithmes robustes de RL entraînés sur des ensembles de données hors ligne suffisamment grands et diversifiés peuvent conduire à des politiques de haute qualité. L'ensemble de données de relecture DQN peut servir de référence en matière de RL hors ligne et est en source ouverte.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !