Poste de recherche

The Advantage Regret-Matching Acteur-Critique

Résumé

La minimisation des regrets a joué un rôle clé dans l'apprentissage en ligne, le calcul de l'équilibre dans les jeux et l'apprentissage par renforcement (RL). Dans cet article, nous décrivons une méthode générale d'apprentissage par renforcement sans modèle pour l'apprentissage sans regret basé sur la reconsidération répétée du comportement passé. Nous proposons un algorithme d'apprentissage sans modèle, l'ARMAC (AdvantageRegret-Matching Actor-Critic) : plutôt que de sauvegarder les données d'état-action passées, l'ARMAC sauvegarde un tampon de politiques passées, les rejouant pour reconstruire des évaluations rétrospectives du comportement passé. Ces estimations de valeur rétrospectives sont utilisées pour prédire les avantages conditionnels qui, combinés à la correspondance des regrets, produisent une nouvelle politique. En particulier, ARMAC apprend à partir de trajectoires échantillonnées dans un cadre d'apprentissage centralisé, sans nécessiter l'application d'un échantillonnage d'importance communément utilisé dans la minimisation du regret contrefactuel (CFR) de Monte Carlo ; par conséquent, il ne souffre pas d'une variance excessive dans les grands environnements. Dans le cadre d'un agent unique, ARMAC présente une forme intéressante d'exploration en conservant intactes les politiques passées. Dans le cadre multi-agents, ARMAC en jeu autonome s'approche des équilibres de Nash sur certains repères à somme nulle partiellement observables. Nous fournissons des estimations de l'exploitabilité dans le jeu beaucoup plus important du Texas Hold'em sans limites, abrégé en paris.

The Advantage Regret-Matching Acteur-Critique

Résumé

Derniers documents de recherche

Le processus historique partiellement observable

Repenser les modèles formels de prise de décision multi-agents partiellement observables

Joueur de jeux

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle