Amii est fier de présenter les travaux de ses chercheurs à la 37e conférence internationale sur l'apprentissage automatique(ICML). Amii soutient la recherche de pointe dans le domaine de l'IA et traduit les progrès scientifiques en adoption par l'industrie.

Ces recherches seront présentées à l'ICML, qui se déroule cette année en ligne du 12 au 18 juillet. L'ICML est réputée dans le monde entier pour la présentation et la publication de travaux de recherche de pointe sur tous les aspects de l'apprentissage automatique, et c'est l'une des conférences sur l'IA dont la croissance est la plus rapide au monde. Selon Synced, la prestigieuse conférence a un taux d'acceptation de 21,8 %, avec un total de 1 088 articles sur 4 990 soumissions.

Les articles acceptés des chercheurs d'Amii couvrent un large éventail de sujets, notamment la manière de repenser le paradigme de l'optimisation des applications RL, les algorithmes RL profonds hors politique et la réduction de la variance dans les jeux de forme extensive.

Les boursiers Amii et les chercheurs - professeurs et étudiants diplômés de l'Université de l'Alberta et de l'Université de la Colombie-Britannique - présentent leurs articles aux participants à la conférence tout au long de la semaine :

Mardi 14 juillet

8 - 8:45 a.m. & 7 - 7:45 p.m. MDT: Optimiser pour le futur dans les PDM non stationnaires; Yash Chandak, Georgios Theocharous, Shiv Shankar, Martha WhiteSridhar Mahadevan, Philip Thomas La plupart des méthodes d'apprentissage par renforcement reposent sur l'hypothèse clé que la dynamique de transition et les fonctions de récompense sont fixes, c'est-à-dire que le processus de décision de Markov (PDM) sous-jacent est stationnaire. Cependant, dans de nombreuses applications pratiques du monde réel, cette hypothèse est clairement violée. Nous expliquons comment les méthodes actuelles peuvent avoir des limites inhérentes aux PDM non stationnaires et, par conséquent, la recherche d'une politique qui est bonne pour le futur, PDM inconnu, nécessite de repenser le paradigme d'optimisation. Pour résoudre ce problème, nous développons une méthode qui s'appuie sur des idées issues du raisonnement contre-factuel et de l'ajustement de courbes pour rechercher de manière proactive une bonne politique future, sans jamais modéliser la non-stationnarité sous-jacente. L'efficacité de la méthode proposée est démontrée sur des problèmes motivés par des applications réelles.
10 - 10:45 a.m. & 9 - 9:45 p.m. MDT : Modélisation générative profonde et évolutive pour les graphes épars; Hanjun Dai, Azade Nazi, Yujia Li, Bo Dai, Dale Schuurmans L'apprentissage de modèles génératifs de graphes est une tâche difficile pour l'apprentissage profond et a une large applicabilité dans une gamme de domaines tels que la chimie, la biologie et les sciences sociales. Cependant, les méthodes neuronales profondes actuelles souffrent d'une évolutivité limitée : pour un graphe avec n nœuds et m arêtes, les méthodes neuronales profondes existantes nécessitent une complexité de \Omega(n^2) en construisant la matrice d'adjacence. D'autre part, de nombreux graphes du monde réel sont en fait épars dans le sens où m\ll n^2. Sur cette base, nous développons un nouveau modèle autorégressif, appelé BiGG, qui utilise cette rareté pour éviter de générer la matrice d'adjacence complète, et qui réduit la complexité du temps de génération des graphes à O((n + m)\log n). En outre, pendant l'apprentissage, ce modèle autorégressif peut être parallélisé avec O(\log n) étapes de synchronisation, ce qui le rend beaucoup plus efficace que d'autres modèles autorégressifs qui nécessitent \Omega(n). Des expériences sur plusieurs points de référence montrent que l'approche proposée non seulement s'adapte à des graphes de plusieurs ordres de grandeur plus grands que ce qui était possible auparavant avec les modèles génératifs de graphes autorégressifs profonds, mais qu'elle permet également de générer des graphes de meilleure qualité.
10 – 10:45 a.m. & 10 – 10:45 p.m. MDT: Fiduciary Bandits; Gal Bahar, Omer Ben-Porat, Kevin Leyton-Brown, Moshe Tennenholtz Recommendation systems often face exploration-exploitation tradeoffs: the system can only learn about the desirability of new options by recommending them to some user. Such systems can thus be modeled as multi-armed bandit settings; however, users are self-interested and cannot be made to follow recommendations. We ask whether exploration can nevertheless be performed in a way that scrupulously respects agents’ interests—i.e., by a system that acts as a \emph{fiduciary}. More formally, we introduce a model in which a recommendation system faces an exploration-exploitation tradeoff under the constraint that it can never recommend any action that it knows yields lower reward in expectation than an agent would achieve if it acted alone. Our main contribution is a positive result: an asymptotically optimal, incentive compatible, and \emph{ex-ante} individually rational recommendation algorithm.
11 - 11:45 & (mercredi 15 juillet) 12 - 12:45 MDT : Planification sélective de style Dyna sous une capacité de modèle limitée; Zaheer SM, Samuel Sokota, Erin Talvitie, Martha White Dans l'apprentissage par renforcement basé sur un modèle, la planification avec un modèle imparfait de l'environnement a le potentiel de nuire à la progression de l'apprentissage. Mais même lorsqu'un modèle est imparfait, il peut encore contenir des informations utiles à la planification. Dans cet article, nous étudions l'idée d'utiliser un modèle imparfait de manière sélective. L'agent doit planifier dans les parties de l'espace d'état où le modèle serait utile, mais s'abstenir d'utiliser le modèle dans les parties où il serait nuisible. Un mécanisme de planification sélective efficace nécessite l'estimation de l'incertitude prédictive, qui découle de l'incertitude aléatoire et de l'incertitude épistémique. Les travaux antérieurs se sont concentrés sur l'incertitude des paramètres, un type particulier d'incertitude épistémique, pour la planification sélective. Dans ce travail, nous soulignons l'importance de l'incertitude structurelle, un type distinct d'incertitude épistémique qui signale les erreurs dues à une capacité limitée ou à une classe de modèles mal spécifiée. Nous montrons que la régression hétéroscédastique, sous l'hypothèse d'une gaussienne isotrope, peut signaler une incertitude structurelle complémentaire à celle détectée par les méthodes conçues pour détecter l'incertitude des paramètres, ce qui indique que la prise en compte de l'incertitude des paramètres et de l'incertitude structurelle peut être une voie plus prometteuse pour une planification sélective efficace que l'une ou l'autre prise isolément.
11 - 11:45 & (mercredi 15 juillet) 12 - 12:45 MDT : Une approche plus simple de l'optimisation accélérée : la moyenne itérative rencontre l'optimisme; Pooria Joulani, Anant Raj, András György, Csaba Szepesvári Récemment, plusieurs tentatives ont été faites pour étendre l'algorithme accéléré de Nesterov à l'optimisation stochastique lisse et à l'optimisation à variance réduite. Dans cet article, nous montrons qu'il existe une approche plus simple de l'accélération : l'application d'algorithmes d'apprentissage en ligne optimistes et l'interrogation de l'oracle du gradient à la moyenne en ligne des itérés d'optimisation intermédiaires. En particulier, nous renforçons un résultat récent de Cutkosky (2019) pour démontrer théoriquement que la moyenne en ligne des itérés entraîne une réduction de l'écart d'optimisation, indépendamment de l'algorithme impliqué. Nous montrons qu'en combinant soigneusement cette technique avec des algorithmes d'apprentissage en ligne optimistes génériques existants, on obtient les taux accélérés optimaux pour l'optimisation d'objectifs fortement convexes et non fortement convexes, éventuellement composites, avec des oracles déterministes et stochastiques du premier ordre. Nous étendons ensuite cette idée à l'optimisation à variance réduite. Enfin, nous fournissons également des algorithmes "universels" qui atteignent le taux optimal pour les objectifs composites lisses et non lisses simultanément sans réglage supplémentaire, généralisant les résultats de Kavis et al. (2019) et résolvant un certain nombre de leurs problèmes ouverts.
2 - 2:45 p.m. & (Mercredi 15 juillet) 3 - 3:45 a.m. MDT : Apprendre avec de bonnes représentations de caractéristiques dans les bandits et dans la réalité virtuelle avec un modèle génératif; Gellért Weisz, Tor Lattimore, Csaba Szepesvári La construction de l'article récent de Du et al [2019] implique que la recherche d'une action quasi-optimale dans un bandit nécessite parfois d'examiner essentiellement toutes les actions, même si l'apprenant reçoit des caractéristiques linéaires dans R^d qui approximent les récompenses avec une petite erreur uniforme. Nous utilisons le théorème de Kiefer-Wolfowitz pour prouver un résultat positif selon lequel, en vérifiant seulement quelques actions, un apprenant peut toujours trouver une action sous-optimale avec une erreur d'au plus O(ε√d), où ε est l'erreur d'approximation des caractéristiques. Ainsi, les caractéristiques sont utiles lorsque l'erreur d'approximation est faible par rapport à la dimensionnalité des caractéristiques. L'idée est appliquée aux bandits stochastiques et à l'apprentissage par renforcement avec un modèle génératif où l'apprenant a accès à des caractéristiques linéaires à d dimensions qui approximent les fonctions action-valeur pour toutes les politiques avec une précision de ε. Pour les bandits linéaires, nous prouvons une limite sur le regret d'ordre d√(n log(k)) + εn√d log(n) avec k le nombre d'actions et n l'horizon. Pour RL, nous montrons que l'itération approximative de la politique peut apprendre une politique optimale jusqu'à une erreur additive d'ordre ε√d/(1 - γ)^2 et en utilisant environ d/(ε^2(1 - γ)^4) échantillons du modèle génératif. Ces limites sont indépendantes des détails les plus fins des caractéristiques. Nous étudions également l'impact de la structure de l'ensemble de caractéristiques sur le compromis entre la complexité de l'échantillon et l'erreur d'estimation.

Mercredi 15 juillet

6 - 6:45 a.m. & 5 - 5:45 p.m. MDT : Une perspective optimiste sur l'apprentissage par renforcement profond hors ligne; Rishabh Agarwal, Dale SchuurmansMohammad Norouzi L'apprentissage par renforcement hors politique (RL) à l'aide d'un ensemble de données hors ligne fixe d'interactions enregistrées est une considération importante dans les applications du monde réel. Cet article étudie l'apprentissage par renforcement hors ligne à l'aide de l'ensemble de données de rediffusion DQN comprenant l'expérience complète de rediffusion d'un agent DQN sur 60 jeux Atari 2600. Nous démontrons que les algorithmes récents de RL profond hors politique, même lorsqu'ils sont entraînés uniquement sur cet ensemble de données fixe, sont plus performants que l'agent DQN entièrement entraîné. Pour améliorer la généralisation dans le cadre hors ligne, nous présentons Random Ensemble Mixture (REM), un algorithme d'apprentissage Q robuste qui renforce la cohérence optimale de Bellman sur des combinaisons convexes aléatoires d'estimations de valeurs Q multiples. Le REM hors ligne entraîné sur l'ensemble de données DQN surpasse les lignes de base RL robustes. Les études d'ablation soulignent le rôle de la taille et de la diversité des ensembles de données hors ligne ainsi que le choix de l'algorithme dans nos résultats positifs. Dans l'ensemble, les résultats présentés ici sont optimistes : des algorithmes RL robustes entraînés sur des ensembles de données hors ligne suffisamment vastes et diversifiés peuvent conduire à des politiques de haute qualité. L'ensemble de données de relecture DQN peut servir de référence pour le RL hors ligne et est disponible en libre accès.
11 – 11:45 a.m. & 10 – 10:45 p.m. MDT: Batch Stationary Distribution Estimation; Junfeng Wen, Bo Dai, Lihong Li, Dale Schuurmans We consider the problem of approximating the stationary distribution of an ergodic Markov chain given a set of sampled transitions. Classical simulation-based approaches assume access to the underlying process so that trajectories of sufficient length can be gathered to approximate stationary sampling. Instead, we consider an alternative setting where a \emph{fixed} set of transitions has been collected beforehand, by a separate, possibly unknown procedure. The goal is still to estimate properties of the stationary distribution, but without additional access to the underlying system. We propose a consistent estimator that is based on recovering a correction ratio function over the given data. In particular, we develop a variational power method (VPM) that provides provably consistent estimates under general conditions. In addition to unifying a number of existing approaches from different subfields, we also find that VPM yields significantly better estimates across a range of problems, including queueing, stochastic differential equations, post-processing MCMC, and off-policy evaluation.
11 - 11:45 a.m. & 10 - 10:45 p.m. MDT : Gestion de la contrainte positive-définie dans la règle d'apprentissage bayésienne; Wu Lin, Mark SchmidtMohammad Emtiyaz Khan La règle d'apprentissage bayésienne est une méthode d'inférence variationnelle récemment proposée, qui non seulement contient de nombreux algorithmes d'apprentissage existants en tant que cas particuliers, mais permet également la conception de nouveaux algorithmes. Malheureusement, lorsque les paramètres postérieurs se trouvent dans un ensemble de contraintes ouvert, la règle peut ne pas satisfaire les contraintes et nécessiter des recherches en ligne qui pourraient ralentir l'algorithme. Dans cet article, nous résolvons ce problème pour la contrainte positive-définie en proposant une règle améliorée qui gère naturellement la contrainte. Notre modification est obtenue à l'aide de méthodes de gradient riemannien et est valable lorsque l'approximation atteint une paramétrisation naturelle en coordonnées de bloc (par exemple, les distributions gaussiennes et leurs mélanges). Notre méthode est plus performante que les méthodes existantes sans augmentation significative des calculs. Notre travail facilite l'application de la règle d'apprentissage en présence de contraintes positives-définies dans les espaces de paramètres.
10 - 10:45 a.m. & 10 - 10:45 p.m. MDT : Lignes de base à faible variance et à variance nulle pour les jeux à forme extensive; Trevor Davis, Martin Schmid, Michael Bowling Les jeux à forme extensive (EFG) sont un modèle courant d'interactions multi-agents avec des informations imparfaites. Les algorithmes de pointe pour résoudre ces jeux effectuent généralement des promenades complètes dans l'arbre du jeu, ce qui peut s'avérer excessivement lent pour les jeux de grande taille. Par ailleurs, les méthodes basées sur l'échantillonnage, telles que la minimisation des regrets contrefactuels de Monte Carlo, parcourent une ou plusieurs trajectoires à travers l'arbre, ne touchant qu'une fraction des nœuds à chaque itération, au prix d'un plus grand nombre d'itérations pour converger en raison de la variance des valeurs échantillonnées. Dans cet article, nous étendons les travaux récents qui utilisent des estimations de base pour réduire cette variance. Nous introduisons un cadre de valeurs corrigées de la ligne de base dans les EFG qui généralise les travaux précédents. Dans ce cadre, nous proposons de nouvelles fonctions de référence qui permettent de réduire considérablement la variance par rapport aux techniques existantes. Nous montrons qu'un choix particulier d'une telle fonction - la ligne de base prédictive - est manifestement optimal dans le cadre de certains schémas d'échantillonnage. Cela permet de calculer efficacement des estimations de valeur à variance nulle, même le long de trajectoires échantillonnées.

Jeudi 16 juillet

8 – 8:45 a.m. & 8 – 8:45 p.m. MDT: Model-Based Reinforcement Learning with Value-Targeted Regression; Zeyu Jia, Lin Yang, Csaba Szepesvári, Mengdi Wang, Alex Ayoub Reinforcement learning (RL) applies to control problems with large state and action spaces, hence it is natural to consider RL with a parametric model. In this paper we focus on finite-horizon episodic RL where the transition model admits a nonlinear parametrization P_{\theta}, a special case of which is the linear parameterization: P_{\theta} = \sum_{i=1}^{d} (\theta)_{i}P_{i}. We propose an upper confidence model-based RL algorithm with value-targeted model parameter estimation. The algorithm updates the estimate of \theta by solving a nonlinear regression problem using the latest value estimate as the target. We demonstrate the efficiency of our algorithm by proving its expected regret bound which, in the special case of linear parameterization takes the form \tilde{\mathcal{O}}(d\sqrt{H^{3}T}), where H, T, d are the horizon, total number of steps and dimension of \theta. This regret bound is independent of the total number of states or actions, and is close to a lower bound \Omega(\sqrt{HdT}). In the general nonlinear case, we handle the regret analysis by using the concept of Eluder dimension proposed by \citet{RuVR14}.
8 - 8:45 a.m. & 7 - 7:45 p.m. MDT : ConQUR : Atténuer le biais d'illusion dans l'apprentissage en profondeur des questions; DiJia Su, Jayden Ooi, Tyler Lu, Dale SchuurmansCraig Boutilier Le biais d'illusion est une source fondamentale d'erreur dans l'apprentissage Q approximatif. À ce jour, les seules techniques qui traitent explicitement le biais de délusion nécessitent une recherche exhaustive à l'aide d'estimations de valeurs tabulaires. Dans cet article, nous développons des méthodes efficaces pour atténuer le biais d'illusion en formant des approximateurs Q avec des étiquettes qui sont "cohérentes" avec la classe de politique avide sous-jacente. Nous introduisons un schéma de pénalisation simple qui encourage les étiquettes Q utilisées dans les lots de formation à rester (conjointement) cohérentes avec la classe de politique exprimable. Nous proposons également un cadre de recherche qui permet de générer et de suivre de multiples Q-approximateurs, atténuant ainsi l'effet des engagements politiques prématurés (implicites). Les résultats expérimentaux démontrent que ces méthodes peuvent améliorer les performances de l'apprentissage Q dans une variété de jeux Atari, parfois de façon spectaculaire.
8 - 8:45 a.m. & 7 - 7:45 p.m. MDT : Élargir, puis rétrécir : Formation efficace des réseaux minces profonds; Denny Zhou, Mao Ye, Chen Chen, Mingxing Tan, Tianjian Meng, Xiaodan Song, Quoc Le, Qiang Liu, Dale Schuurmans Nous proposons un algorithme efficace pour former un réseau très profond et fin avec une garantie théorique. Notre méthode est motivée par la compression de modèles et consiste en trois étapes. Dans la première étape, nous élargissons le réseau fin et profond et l'entraînons jusqu'à convergence. Dans la deuxième étape, nous utilisons ce réseau large et profond bien entraîné pour réchauffer ou initialiser le réseau fin et profond d'origine. Dans la dernière étape, nous entraînons ce réseau profond initialisé jusqu'à convergence. L'ingrédient clé de notre méthode est sa deuxième étape, au cours de laquelle le réseau fin est progressivement réchauffé en imitant les sorties intermédiaires du réseau large, de bas en haut. Nous établissons une garantie théorique à l'aide d'une analyse du champ moyen. Nous montrons que notre méthode est manifestement plus efficace que la formation directe d'un réseau fin profond à partir de zéro. Nous effectuons également des évaluations empiriques sur la classification d'images et la modélisation du langage. En s'entraînant avec notre approche, ResNet50 peut surpasser ResNet101 qui est normalement entraîné comme dans la littérature, et BERTBASE peut être comparable à BERTLARGE.
9 - 9:45 a.m. & 8 - 20:45 p.m. MDT : Apprentissage par différence temporelle de gradient avec corrections régularisées; Sina Ghiassian, Andrew Patterson, Shivam Garg, Dhawal Gutpa, Adam White, Martha White L'apprentissage de la fonction de valeur reste une composante essentielle de nombreux systèmes d'apprentissage par renforcement. De nombreux algorithmes sont basés sur des mises à jour par différence temporelle (TD), qui présentent des problèmes de divergence bien documentés, même s'il existe des alternatives potentiellement valables comme la TD de gradient. Les approches non fiables comme l'apprentissage Q et la TD restent populaires parce que la divergence semble rare dans la pratique et que ces algorithmes donnent généralement de bons résultats. Cependant, des travaux récents sur de grands systèmes d'apprentissage par réseau neuronal révèlent que l'instabilité est plus fréquente qu'on ne le pensait. Les praticiens sont confrontés à un dilemme difficile : choisir une méthode de TD facile à utiliser et performante, ou un algorithme plus complexe qui est plus solide mais plus difficile à régler, moins efficace en termes d'échantillonnage, et dont le contrôle n'a pas été exploré. Dans cet article, nous présentons une nouvelle méthode appelée TD avec corrections régularisées (TDRC), qui tente d'équilibrer la facilité d'utilisation, la solidité et la performance. Elle se comporte aussi bien que la méthode TD lorsque cette dernière est performante, mais elle est saine même dans les cas où la méthode TD diverge. Nous caractérisons la mise à jour attendue pour TDRC et montrons qu'elle hérite des garanties de solidité de Gradient TD et converge vers la même solution que TD. Empiriquement, TDRC présente de bonnes performances et une faible sensibilité aux paramètres pour plusieurs problèmes.
9 - 9:45 a.m. & 8 - 20:45 p.m. MDT : Réseaux d'agrégation de domaines pour l'adaptation de domaines multi-sources; Junfeng Wen, Russell Greiner, Dale Schuurmans Dans de nombreuses applications réelles, nous voulons exploiter plusieurs ensembles de données sources pour construire un modèle pour un ensemble de données cibles différent mais apparenté. Malgré le succès empirique récent, la plupart des recherches existantes ont utilisé des méthodes ad hoc pour combiner des sources multiples, ce qui a créé un fossé entre la théorie et la pratique. Dans cet article, nous développons une limite de généralisation à échantillon fini basée sur la divergence des domaines et proposons en conséquence une procédure d'optimisation théoriquement justifiée. Notre algorithme, Domain AggRegation Network (DARN), peut automatiquement et dynamiquement trouver un équilibre entre l'inclusion d'un plus grand nombre de données pour augmenter la taille effective de l'échantillon et l'exclusion des données non pertinentes pour éviter les effets négatifs pendant la formation. Nous constatons que le DARN peut surpasser de manière significative les alternatives de pointe sur de multiples tâches réelles, y compris la reconnaissance de chiffres/d'objets et l'analyse de sentiments.
10 – 10:45 a.m. & 9 – 9:45 p.m. MDT: On the Global Convergence Rates of Softmax Policy Gradient Methods; Jincheng Mei, Chenjun Xiao, Csaba Szepesvári, Dale Schuurmans We make three contributions toward better understanding policy gradient methods. First, we show that with the true gradient, policy gradient with a softmax parametrization converges at a O(1/t) rate, with constants depending on the problem and initialization. This result significantly improves recent asymptotic convergence results. The analysis relies on two findings: that the softmax policy gradient satisfies a \L{}ojasiewicz inequality, and the minimum probability of an optimal action during optimization can be bounded in terms of its initial value. Second, we analyze entropy regularized policy gradient and show that in the one state (bandit) case it enjoys a linear convergence rate O(e^{-t}), while for general MDPs we prove that it converges at a O(1/t) rate. This result resolves an open question in the recent literature. A key insight is that the entropy regularized gradient update behaves similarly to the contraction operator in value learning, with contraction factor depending on current policy. Finally, combining the above two results and additional lower bound results, we explain how entropy regularization improves policy optimization, even with the true gradient, from the perspective of convergence rate. These results provide a theoretical understanding of the impact of entropy and corroborate existing empirical studies.
10 - 10:45 & (vendredi 17 juillet) 12 - 12:45 MDT : Processus basés sur l'énergie pour les données échangeables; Mengjiao Yang, Bo Dai, Hanjun Dai, Dale Schuurmans Récemment, l'intérêt pour la modélisation d'ensembles de données échangeables, tels que les nuages de points, s'est accru. L'un des défauts des approches actuelles est qu'elles limitent la cardinalité des ensembles considérés ou qu'elles ne peuvent exprimer que des formes limitées de distribution sur des données non observées. Pour surmonter ces limitations, nous introduisons les processus basés sur l'énergie (EBP), qui étendent les modèles basés sur l'énergie aux données échangeables tout en permettant des paramétrisations de la fonction d'énergie par des réseaux neuronaux. L'un des principaux avantages de ces modèles est qu'ils permettent d'exprimer des distributions plus souples sur des ensembles sans restreindre leur cardinalité. Nous développons une procédure d'apprentissage efficace pour les EBP qui démontre une performance de pointe sur une variété de tâches telles que la génération de nuages de points, la classification, le débruitage et l'achèvement d'images.

Amii organisera également des activités sociales pendant la conférence afin de donner aux participants l'occasion de se rencontrer et de rencontrer des chercheurs de haut niveau :

Doing RL in the Real World Social - Vendredi 17 juillet à 15h - 17h MDT
Interactions multi-agents : une théorie sociale des jeux - Jeudi 16 juillet à 13h - 14h MDT
Le réseautage neuronal : une IA sociale dans le domaine de la santé - vendredi 17 juillet de 18 h à 20 h (heure locale)