Poste de recherche

The Advantage Regret-Matching Acteur-Critique

Résumé

La minimisation des regrets a joué un rôle clé dans l'apprentissage en ligne, le calcul de l'équilibre dans les jeux et l'apprentissage par renforcement (RL). Dans cet article, nous décrivons une méthode générale d'apprentissage par renforcement sans modèle pour l'apprentissage sans regret basé sur la reconsidération répétée du comportement passé. Nous proposons un algorithme d'apprentissage sans modèle, l'ARMAC (AdvantageRegret-Matching Actor-Critic) : plutôt que de sauvegarder les données d'état-action passées, l'ARMAC sauvegarde un tampon de politiques passées, les rejouant pour reconstruire des évaluations rétrospectives du comportement passé. Ces estimations de valeur rétrospectives sont utilisées pour prédire les avantages conditionnels qui, combinés à la correspondance des regrets, produisent une nouvelle politique. En particulier, ARMAC apprend à partir de trajectoires échantillonnées dans un cadre d'apprentissage centralisé, sans nécessiter l'application d'un échantillonnage d'importance communément utilisé dans la minimisation du regret contrefactuel (CFR) de Monte Carlo ; par conséquent, il ne souffre pas d'une variance excessive dans les grands environnements. Dans le cadre d'un agent unique, ARMAC présente une forme intéressante d'exploration en conservant intactes les politiques passées. Dans le cadre multi-agents, ARMAC en jeu autonome s'approche des équilibres de Nash sur certains repères à somme nulle partiellement observables. Nous fournissons des estimations de l'exploitabilité dans le jeu beaucoup plus important du Texas Hold'em sans limites, abrégé en paris.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !