Poste de recherche

EMaQ : Expected-Max Q-Learning Operator pour une RL simple mais efficace, hors ligne et en ligne

Résumé

L'apprentissage par renforcement hors politique offre la promesse d'un apprentissage efficace en termes d'échantillons de politiques décisionnelles en tirant parti de l'expérience passée. Cependant, dans le cadre de l'apprentissage par renforcement hors ligne - où une collection fixe d'interactions est fournie et où aucune autre interaction n'est autorisée - il a été démontré que les méthodes standard d'apprentissage par renforcement hors politique peuvent être nettement moins performantes. Les méthodes récemment proposées visent souvent à remédier à cette lacune en contraignant les politiques apprises à rester proches de l'ensemble des interactions données. Dans ce travail, nous étudions de près une simplification importante de BCQ -- une approche antérieure pour le RL hors ligne -- qui supprime un choix de conception heuristique et restreint naturellement les politiques extraites pour qu'elles restent exactement dans le support d'une politique de comportement donnée. De manière importante, contrairement aux considérations théoriques originales, nous dérivons cet algorithme simplifié par l'introduction d'un nouvel opérateur de sauvegarde, Expected-Max Q-Learning (EMaQ), qui est plus étroitement lié à l'algorithme pratique résultant. Plus précisément, en plus du support de la distribution, EMaQ considère explicitement le nombre d'échantillons et la distribution de la proposition, ce qui nous permet de dériver de nouvelles limites de sous-optimalité qui peuvent servir de nouvelle mesure de la complexité des problèmes de RL hors ligne. Dans le cadre de la RL hors ligne - le point principal de ce travail - EMaQ correspond et dépasse l'état de l'art antérieur dans les repères D4RL. Dans le cadre de la RL en ligne, nous démontrons que EMaQ est compétitif avec Soft Actor Critic. Les principales contributions de nos résultats empiriques sont la démonstration de l'importance d'une conception soignée du modèle génératif pour l'estimation des politiques de comportement, et une notion intuitive de la complexité pour les problèmes de RL hors ligne. Avec son interprétation simple et moins de pièces mobiles, comme l'absence d'approximateur de fonction explicite représentant la politique, EMaQ sert de base solide mais facile à mettre en œuvre pour les travaux futurs.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !