Poste de recherche
La minimisation des regrets a joué un rôle clé dans l'apprentissage en ligne, le calcul de l'équilibre dans les jeux et l'apprentissage par renforcement (RL). Dans cet article, nous décrivons une méthode générale d'apprentissage par renforcement sans modèle pour l'apprentissage sans regret basé sur la reconsidération répétée du comportement passé. Nous proposons un algorithme d'apprentissage sans modèle, l'ARMAC (AdvantageRegret-Matching Actor-Critic) : plutôt que de sauvegarder les données d'état-action passées, l'ARMAC sauvegarde un tampon de politiques passées, les rejouant pour reconstruire des évaluations rétrospectives du comportement passé. Ces estimations de valeur rétrospectives sont utilisées pour prédire les avantages conditionnels qui, combinés à la correspondance des regrets, produisent une nouvelle politique. En particulier, ARMAC apprend à partir de trajectoires échantillonnées dans un cadre d'apprentissage centralisé, sans nécessiter l'application d'un échantillonnage d'importance communément utilisé dans la minimisation du regret contrefactuel (CFR) de Monte Carlo ; par conséquent, il ne souffre pas d'une variance excessive dans les grands environnements. Dans le cadre d'un agent unique, ARMAC présente une forme intéressante d'exploration en conservant intactes les politiques passées. Dans le cadre multi-agents, ARMAC en jeu autonome s'approche des équilibres de Nash sur certains repères à somme nulle partiellement observables. Nous fournissons des estimations de l'exploitabilité dans le jeu beaucoup plus important du Texas Hold'em sans limites, abrégé en paris.
24 février 2022
Poste de recherche
1er février 2022
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Michael Bowling, boursiers Amii et titulaires de la chaire d'IA du CIFAR Canada : Repenser les modèles formels de prise de décision multi-agents partiellement observables.
6 décembre 2021
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Micheal Bowling, boursiers Amii et titulaires de chaires d'IA au CIFAR : Le joueur de jeux
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.