Institut de l'intelligence artificielle de l'Alberta

Amii à l'ICML 2021

Publié

13 juillet 2021

Les travaux des chercheurs d'Amii seront présentés lors de la 38e conférence internationale annuelle sur l'apprentissage automatique (ICML), qui se déroule cette année en ligne du 18 au 24 juillet.

La conférence ICML est le premier rassemblement de professionnels qui se consacrent à l'avancement de la branche de l'IA connue sous le nom d'apprentissage automatique (ML). Réputée dans le monde entier pour la présentation et la publication de travaux de recherche de pointe sur tous les aspects de l'apprentissage automatique et les domaines d'application, la conférence figure parmi les dix conférences sur l'apprentissage automatique et l'IA les mieux classées au monde sur la base de l'indice h et du score d'impact (voir : Google Scholar et Guide2Research).

Les boursiers Amii et les chaires d'IA du CIFAR du Canada - des professeurs de l'Université d'Alberta, de l'Université de Colombie-Britannique et de l'Université Carleton - ainsi que d'autres chercheurs Amii ont 23 articles inclus dans les actes :

Articles acceptés

* indique un chercheur ou un ancien élève d'Amii

Une analyse de l'apprentissage méta en fonction de la distribution

Évaluation de politique hors politique de récompense moyenne avec approximation de fonction

Au-delà de la réduction de la variance : Comprendre le véritable impact des bases de référence sur l'optimisation des politiques

Bootstrapping de l'évaluation Q ajustée pour l'inférence hors politique

Caractériser l'écart entre l'acteur-critique et le gradient politique

Types de déviations efficaces et apprentissage de la rationalité rétrospective dans les jeux de forme extensive.

Algorithmes emphatiques pour l'apprentissage par renforcement profond

  • Ray Jiang, Tom Zahavy, Zhongwen Xu, Adam White*Matteo Hessel, Charles Blundell, Hado van Hasselt

De la récurrence de Poincaré à la convergence dans les jeux à information imparfaite : Trouver l'équilibre par régularisation

  • Julien Perolat, Remi Munos, Jean-Baptiste Lespiau, Shayegan Omidshafiei, Mark Rowland, Pedro Ortega, Neil Burch*, Thomas Anthony, David Balduzzi, Bart De Vylder, Georgios Piliouras, Marc Lanctot*, Karl Tuyls

Amélioration de la limite de regret et de la répétition de l'expérience dans l'itération de politique régularisée

Apprentissage et planification dans les processus de décision de Markov à récompense moyenne

LEGO : Raisonnement latent guidé par l'exécution pour la réponse à des questions à bonds multiples sur des graphes de connaissances.

  • Hongyu Ren, Hanjun Dai, Bo Dai, Xinyun Chen, Michihiro Yasunaga, Haitian Sun, Dale Schuurmans*Jure Leskovec, Denny Zhou

Tirer parti de la non-uniformité dans l'optimisation non convexe du premier ordre

Échantillonnage Meta-Thompson

  • Branislav Kveton, Mikhail Konobeev*, Manzil Zaheer, Chih-wei Hsu, Martin Mladenov, Craig Boutilier, Csaba Szepesvári*

Sur l'optimalité des algorithmes d'optimisation des politiques par lots

Re-présentation transductive des caractéristiques sans paramètres pour l'apprentissage en quelques coups.

Capacité d'information sur les politiques : Mesure théorique de l'information pour la complexité des tâches dans l'apprentissage profond par renforcement.

  • Hiroki Furuta, Tatsuya Matsushima, Tadashi Kozuno*, Yutaka Matsuo, Sergey Levine, Ofir Nachum, Shixiang Gu

Exploration aléatoire dans l'apprentissage par renforcement avec approximation générale de la fonction de valeur

  • Haque Ishfaq, Qiwen Cui, Viet Nguyen, Alex Ayoub*, Zhuoran Yang, Zhaoran Wang, Doina Precup, Lin Yang

Révision du Q(λ) de Peng pour l'apprentissage par renforcement moderne

  • Tadashi Kozuno*, Yunhao Tang, Mark Rowland, Remi Munos, Steven Kapturowski, Will Dabney, Michal Valko et David Abel.

RNNRepair : Réparation automatique des RNN via une analyse basée sur un modèle

  • Xiaofei Xie, Wenbo Guo, Lei Ma*, Wei Le, Jian Wang, Lingjun Zhou, Yang Liu, Xinyu Xing

Apprentissage asymétrique robuste dans les POMDPs

  • Andrew Warrington, Jonathan Lavington*, Adam Ścibior, Mark Schmidt*, Frank Wood

La sélection de caractéristiques éparses rend l'apprentissage par renforcement par lots plus efficace en termes d'échantillons.

Descente par gradient naturel structuré traçable utilisant des paramétrages locaux

Inférence causale valide avec (certains) instruments non valides

Ateliers

L'apprentissage par renforcement pour la vie réelle

Atelier sur la théorie de l'apprentissage par renforcement

Autres activités

Soirée Trivia organisée par Amii

  • Date : Vendredi 23 juillet (15 h - 16 h 30 MST)

  • Description : Rejoignez-nous pour une soirée trivia virtuelle et profitez-en pour en apprendre davantage sur le travail que nous accomplissons à Amii ! Des équipes seront constituées au cours de l'événement et l'équipe gagnante remportera une carte-cadeau de 25 dollars pour un repas de fête offert par UberEATS.

Programme de mentorat

Service

Outre le fait que son travail a été présenté à la conférence de l'ICML, Adam White a également occupé la fonction de président social.

Partager