Poste de recherche
Nous présentons le formalisme du processus historique partiellement observable (POHP) pour l'apprentissage par renforcement. Le POHP est centré sur les actions et les observations d'un seul agent et fait abstraction de la présence d'autres joueurs sans les réduire à des processus stochastiques. Notre formalisme fournit une interface simplifiée pour la conception d'algorithmes qui ne sont pas catégorisés comme étant exclusivement mono- ou multi-agents, et pour le développement d'une théorie qui s'applique à ces domaines. Nous montrons comment le formalisme POHP unifie les modèles traditionnels, y compris le processus de décision de Markov, le jeu de Markov, le jeu de forme extensive et leurs extensions partiellement observables, sans introduire une machinerie technique lourde ou violer les fondements philosophiques de l'apprentissage par renforcement. Nous illustrons l'utilité de notre formalisme en explorant de manière concise la rationalité séquentielle observable, en examinant certaines propriétés théoriques de la minimisation du regret immédiat général et en généralisant l'algorithme de minimisation du regret de forme extensive (EFR).
1er février 2022
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Michael Bowling, boursiers Amii et titulaires de la chaire d'IA du CIFAR Canada : Repenser les modèles formels de prise de décision multi-agents partiellement observables.
6 décembre 2021
Poste de recherche
Lisez ce document de recherche, coécrit par Neil Burch et Micheal Bowling, boursiers Amii et titulaires de chaires d'IA au CIFAR : Le joueur de jeux
13 novembre 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.