Poste de recherche

Apprentissage asymétrique robuste dans les POMDPs

Résumé

Les politiques pour les processus de décision de Markov partiellement observés peuvent être efficacement apprises en imitant les politiques pour les processus de décision de Markov entièrement observés correspondants. Malheureusement, les approches existantes pour ce type d'apprentissage par imitation présentent un grave défaut : l'expert ne sait pas ce que le stagiaire ne peut pas voir, et peut donc encourager des actions qui sont sous-optimales, voire dangereuses, dans le cadre d'une information partielle. Nous dérivons un objectif pour entraîner l'expert à maximiser la récompense attendue de la politique de l'agent imitateur, et nous l'utilisons pour construire un algorithme efficace, le DAgger asymétrique adaptatif (A2D), qui entraîne conjointement l'expert et l'agent. Nous montrons que A2D produit une politique d'expert que l'agent peut imiter en toute sécurité, ce qui surpasse les politiques apprises en imitant un expert fixe.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !