Poste de recherche

Le processus historique partiellement observable

Résumé

Nous présentons le formalisme du processus historique partiellement observable (POHP) pour l'apprentissage par renforcement. Le POHP est centré sur les actions et les observations d'un seul agent et fait abstraction de la présence d'autres joueurs sans les réduire à des processus stochastiques. Notre formalisme fournit une interface simplifiée pour la conception d'algorithmes qui ne sont pas catégorisés comme étant exclusivement mono- ou multi-agents, et pour le développement d'une théorie qui s'applique à ces domaines. Nous montrons comment le formalisme POHP unifie les modèles traditionnels, y compris le processus de décision de Markov, le jeu de Markov, le jeu de forme extensive et leurs extensions partiellement observables, sans introduire une machinerie technique lourde ou violer les fondements philosophiques de l'apprentissage par renforcement. Nous illustrons l'utilité de notre formalisme en explorant de manière concise la rationalité séquentielle observable, en examinant certaines propriétés théoriques de la minimisation du regret immédiat général et en généralisant l'algorithme de minimisation du regret de forme extensive (EFR).

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !