Poste de recherche
L'apprentissage de stratégies pour les jeux à information imparfaite à partir d'échantillons d'interaction est un problème difficile. Une méthode courante dans ce contexte, la minimisation des regrets contrefactuels de Monte Carlo (MCCFR), peut présenter des taux de convergence lents à long terme en raison d'une variance élevée. Dans cet article, nous introduisons une technique de réduction de la variance (VR-MCCFR) qui s'applique à toute variante d'échantillonnage de la MCCFR. Grâce à cette technique, les valeurs estimées par péritération et les mises à jour sont reformulées en fonction des valeurs échantillonnées et des lignes de base de l'action d'état, de manière similaire à leur utilisation dans l'apprentissage par renforcement du gradient de politique. La nouvelle formulation permet d'amorcer les estimations à partir d'autres estimations dans le même épisode, propageant les avantages des lignes de base le long de la trajectoire échantillonnée ; les estimations restent non biaisées même lorsqu'elles sont amorcées à partir d'autres estimations. Enfin, nous montrons qu'avec une ligne de base parfaite, la variance des estimations de valeur peut être réduite à zéro. L'évaluation expérimentale montre que le VR-MCCFR apporte une accélération d'un ordre de grandeur, tandis que la variance empirique diminue de trois ordres de grandeur. La diminution de la variance permet pour la première fois d'utiliser CFR+ avec l'échantillonnage, ce qui augmente la vitesse de deux ordres de grandeur.
24 février 2022
Poste de recherche
1er février 2022
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Michael Bowling, boursiers Amii et titulaires de la chaire d'IA du CIFAR Canada : Repenser les modèles formels de prise de décision multi-agents partiellement observables.
6 décembre 2021
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Micheal Bowling, boursiers Amii et titulaires de chaires d'IA au CIFAR : Le joueur de jeux
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.