Poste de recherche
La plupart des politiques de bandits sont conçues soit pour minimiser le regret dans n'importe quelle instance du problème, en faisant très peu d'hypothèses sur l'environnement sous-jacent, soit dans un sens bayésien, en supposant une distribution préalable sur les paramètres de l'environnement. Les premières sont souvent trop conservatrices dans des contextes pratiques, tandis que les secondes requièrent des hypothèses qui sont difficiles à vérifier en pratique. Nous étudions les problèmes de bandit qui se situent entre ces deux extrêmes, où l'agent d'apprentissage a accès à des instances de bandit échantillonnées à partir d'une distribution antérieure inconnue et vise à obtenir une récompense élevée en moyenne sur les instances de bandit tirées de . Ce cadre est d'une importance particulière car il jette les bases du méta-apprentissage des politiques de bandits et reflète des hypothèses plus réalistes dans de nombreux domaines pratiques. Nous proposons l'utilisation de politiques de bandits paramétrées qui sont différentiables et peuvent être optimisées en utilisant des gradients de politique. Cela fournit un cadre largement applicable et facile à mettre en œuvre. Nous dérivons des gradients de récompense qui reflètent la structure des problèmes et des politiques de bandit, pour des paramètres contextuels et non contextuels, et nous proposons un certain nombre de politiques intéressantes qui sont à la fois différentiables et à faible regret. Nos contributions algorithmiques et théoriques sont soutenues par des expériences approfondies qui montrent l'importance de la soustraction de la ligne de base, les biais appris, et l'aspect pratique de notre approche sur une série de problèmes.
15 février 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Osmar Zaiane, boursier Amii et président du CIFAR AI au Canada : UCTransNet : Repenser les connexions de saut dans U-Net d'une perspective de canal avec Transformer.
27 septembre 2021
Poste de recherche
17 septembre 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.