Amii soutient la recherche de pointe en transformant les progrès scientifiques en adoption par l'industrie, permettant ainsi à nos chercheurs de renommée mondiale de se concentrer sur la résolution de problèmes difficiles tandis que nos équipes transposent les connaissances, le talent et la technologie - créant ainsi un système intégré qui permet à la recherche et à l'industrie de prospérer.
Ces recherches de pointe sont actuellement présentées à la huitième conférence internationale sur les représentations d'apprentissage (ICLR), qui se déroule cette année en ligne du 26 avril au 1er mai. L'ICLR est le premier rassemblement de professionnels qui se consacrent à l'avancement de la branche de l'IA appelée apprentissage par représentation, également appelée apprentissage profond. La conférence est mondialement reconnue pour la présentation et la publication de recherches de pointe sur tous les aspects de l'apprentissage profond utilisés dans les domaines de l'IA, des statistiques et de la science des données, ainsi que dans des domaines d'application importants tels que la vision artificielle, la biologie computationnelle, la reconnaissance vocale, la compréhension de texte, les jeux et la robotique.
Les articles acceptés des chercheurs d'Amii couvrent un large éventail de sujets, notamment la réduction du biais de surestimation dans l'apprentissage Q, l'entraînement plus efficace des RNN en reformulant l'objectif d'entraînement, et la réduction du biais de sélection lors de l'estimation des effets de traitement à partir de données d'observation.
Découvrez ci-dessous comment les boursiers et chercheurs Amii - professeurs et étudiants de l'Université de l'Alberta - contribuent aux travaux de cette année.
Plusieurs articles co-rédigés par des boursiers Amii et des étudiants ont été acceptés pour être publiés par l'ICLR en 2020 :
Maxmin Q-learning: Controlling the Estimation Bias of Q-learning Qingfeng Lan and Yangchen Pan (Amii students), Alona Fyshe and Martha White (Amii Fellows) Abstract: Q-learning suffers from overestimation bias, because it approximates the maximum action value using the maximum estimated action value. Algorithms have been proposed to reduce overestimation bias, but we lack an understanding of how bias interacts with performance, and the extent to which existing algorithms mitigate bias. In this paper, we 1) highlight that the effect of overestimation bias on learning efficiency is environment-dependent; 2) propose a generalization of Q-learning, called \emph{Maxmin Q-learning}, which provides a parameter to flexibly control bias; 3) show theoretically that there exists a parameter choice for Maxmin Q-learning that leads to unbiased estimation with a lower approximation variance than Q-learning; and 4) prove the convergence of our algorithm in the tabular case, as well as convergence of several previous Q-learning variants, using a novel Generalized Q-learning framework. We empirically verify that our algorithm better controls estimation bias in toy environments, and that it achieves superior performance on several benchmark problems.
Learning Disentangled Representations for CounterFactual Regression Negar Hassanpour (Amii student), Russell Greiner (Amii Fellow) Abstract: We consider the challenge of estimating treatment effects from observational data; and point out that, in general, only some factors based on the observed covariates X contribute to selection of the treatment T, and only some to determining the outcomes Y. We model this by considering three underlying sources of {X, T, Y} and show that explicitly modeling these sources offers great insight to guide designing models that better handle selection bias. This paper is an attempt to conceptualize this line of thought and provide a path to explore it further. In this work, we propose an algorithm to (1) identify disentangled representations of the above-mentioned underlying factors from any given observational dataset D and (2) leverage this knowledge to reduce, as well as account for, the negative impact of selection bias on estimating the treatment effects from D. Our empirical results show that the proposed method achieves state-of-the-art performance in both individual and population based evaluation measures.
Banques de mémoire progressives pour l'adaptation incrémentale au domaine Nabiha Asghar, Lili Mou (boursière Amii), Kira A. Selby, Kevin D. Pantasdo, Pascal Poupart, Xin Jiang Résumé : Cet article aborde le problème de l'adaptation incrémentale des domaines (IDA) dans le traitement du langage naturel (NLP). Nous supposons que chaque domaine vient l'un après l'autre et que nous ne pouvons accéder qu'aux données du domaine actuel. L'objectif de l'AID est de construire un modèle unifié performant dans tous les domaines que nous avons rencontrés. Nous adoptons le réseau neuronal récurrent (RNN) largement utilisé en NLP, mais nous l'augmentons d'une banque de mémoire directement paramétrée, qui est récupérée par un mécanisme d'attention à chaque étape de la transition RNN. La banque de mémoire fournit un moyen naturel d'IDA : lorsque nous adaptons notre modèle à un nouveau domaine, nous ajoutons progressivement de nouveaux emplacements à la banque de mémoire, ce qui augmente le nombre de paramètres, et donc la capacité du modèle. Nous apprenons les nouveaux emplacements de mémoire et affinons les paramètres existants par rétro-propagation. Les résultats expérimentaux montrent que notre approche permet d'obtenir des performances nettement supérieures à celles du réglage fin seul. Par rapport à l'expansion des états cachés, notre approche est plus robuste pour les domaines anciens, comme le montrent les résultats empiriques et théoriques. Notre modèle surpasse également les travaux antérieurs de l'IDA, y compris la consolidation des poids élastiques et les réseaux neuronaux progressifs dans les expériences.
Formation en ligne de réseaux neuronaux récurrents par l'apprentissage de variables d'état explicites Somjit Nath (ancien élève de l'Amii), Vincent Liu, Alan Chan, Xin Li (étudiants de l'Amii), Adam White et Martha White (boursiers Amii) Résumé : Les réseaux neuronaux récurrents (RNN) permettent à un agent de construire une représentation de l'état à partir d'un flux d'expériences, ce qui est essentiel dans les problèmes partiellement observables. Cependant, deux problèmes principaux doivent être surmontés lors de la formation d'un RNN : la sensibilité de la performance de l'algorithme d'apprentissage à la longueur de la troncature et la longueur des temps de formation. Il existe une variété de stratégies pour améliorer la formation des RNN, les plus connues étant le Backprop Through Time (BPTT) et le Real-Time Recurrent Learning (apprentissage récurrent en temps réel). Toutefois, ces stratégies sont généralement coûteuses en termes de calcul et se concentrent sur le calcul des gradients dans le temps. Dans ce travail, nous reformulons l'objectif de formation des RNN pour apprendre explicitement les vecteurs d'état ; cela rompt la dépendance dans le temps et évite ainsi la nécessité d'estimer les gradients loin dans le temps. Nous montrons que pour un tampon de données fixe, notre algorithme, appelé "Fixed Point Propagation" (FPP), est sain : il converge vers un point stationnaire du nouvel objectif. Nous étudions les performances empiriques de notre algorithme FPP en ligne, en particulier en termes de calcul par rapport au BPTT tronqué avec différents niveaux de troncature.
Contrôle de recherche basé sur la fréquence dans Dyna Yangchen Pan, Jincheng Mei (étudiants de l'Amii) et Amir-massoud Farahmand (ancien élève de l'Amii) Résumé : L'apprentissage par renforcement basé sur un modèle a été empiriquement démontré comme une stratégie efficace pour améliorer l'efficacité de l'échantillonnage. En particulier, Dyna est une architecture élégante basée sur un modèle qui intègre l'apprentissage et la planification et qui offre une grande flexibilité dans l'utilisation d'un modèle. L'un des composants les plus importants de Dyna est appelé contrôle de la recherche, qui se réfère au processus de génération d'états ou de paires état-action à partir desquelles nous interrogeons le modèle pour acquérir des expériences simulées. Le contrôle de la recherche est essentiel pour améliorer l'efficacité de l'apprentissage. Dans ce travail, nous proposons une stratégie simple et novatrice de contrôle de la recherche en recherchant des régions à haute fréquence de la fonction de valeur. Notre principale intuition repose sur le théorème d'échantillonnage de Shannon, issu du traitement des signaux, qui indique qu'un signal à haute fréquence nécessite plus d'échantillons pour être reconstruit. Nous montrons empiriquement qu'une fonction à haute fréquence est plus difficile à approximer. Cela suggère une stratégie de contrôle de la recherche : nous devrions utiliser les états des régions à haute fréquence de la fonction de valeur pour demander au modèle d'acquérir plus d'échantillons. Nous développons une stratégie simple pour mesurer localement la fréquence d'une fonction par le gradient et les normes hessiennes, et nous fournissons une justification théorique de cette approche. Nous appliquons ensuite notre stratégie au contrôle de la recherche dans Dyna, et menons des expériences pour montrer sa propriété et son efficacité sur des domaines de référence.
En outre, Amii organise également trois activités sociales tout au long de la conférence :
Amii Conseiller scientifique en chef Richard Sutton animera une session sur ce qu'il appelle la leçon amère de la recherche en IA, à savoir que "les méthodes générales qui tirent parti de l'informatique sont en fin de compte les plus efficaces, et de loin" et que "le succès final est teinté d'amertume, et souvent incomplètement digéré, parce qu'il s'agit d'un succès par rapport à une approche privilégiée, centrée sur l'homme".
Le RL Mixer réunit des chercheurs intéressés par l'apprentissage par renforcement pour une séquence de discussions en petits groupes formés de manière aléatoire. Les participants auront l'occasion de discuter d'une grande variété de sujets avec de nouvelles personnes dans les salles de discussion Zoom, à raison de 30 minutes par groupe de discussion.
La rencontre Rencontre des boursiers Amii est l'occasion de rencontrer les boursiers Amii et d'engager avec eux des conversations en rapport avec leurs domaines de recherche et leur expérience.