Poste de recherche
Les politiques pour les processus de décision de Markov partiellement observés peuvent être efficacement apprises en imitant les politiques pour les processus de décision de Markov entièrement observés correspondants. Malheureusement, les approches existantes pour ce type d'apprentissage par imitation présentent un grave défaut : l'expert ne sait pas ce que le stagiaire ne peut pas voir, et peut donc encourager des actions qui sont sous-optimales, voire dangereuses, dans le cadre d'une information partielle. Nous dérivons un objectif pour entraîner l'expert à maximiser la récompense attendue de la politique de l'agent imitateur, et nous l'utilisons pour construire un algorithme efficace, le DAgger asymétrique adaptatif (A2D), qui entraîne conjointement l'expert et l'agent. Nous montrons que A2D produit une politique d'expert que l'agent peut imiter en toute sécurité, ce qui surpasse les politiques apprises en imitant un expert fixe.
15 février 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Osmar Zaiane, boursier Amii et président du CIFAR AI au Canada : UCTransNet : Repenser les connexions de saut dans U-Net d'une perspective de canal avec Transformer.
27 septembre 2021
Poste de recherche
17 septembre 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.