Amii soutient la recherche de pointe en transformant les progrès scientifiques en adoption par l'industrie, permettant ainsi à nos chercheurs de renommée mondiale de se concentrer sur la résolution de problèmes difficiles tandis que nos équipes transposent les connaissances, le talent et la technologie - créant ainsi un système intégré qui permet à la recherche et à l'industrie de prospérer.
Ces recherches de pointe sont actuellement présentées à la huitième conférence internationale sur les représentations d'apprentissage (ICLR), qui se déroule cette année en ligne du 26 avril au 1er mai. L'ICLR est le premier rassemblement de professionnels qui se consacrent à l'avancement de la branche de l'IA appelée apprentissage par représentation, également appelée apprentissage profond. La conférence est mondialement reconnue pour la présentation et la publication de recherches de pointe sur tous les aspects de l'apprentissage profond utilisés dans les domaines de l'IA, des statistiques et de la science des données, ainsi que dans des domaines d'application importants tels que la vision artificielle, la biologie computationnelle, la reconnaissance vocale, la compréhension de texte, les jeux et la robotique.
Les articles acceptés des chercheurs d'Amii couvrent un large éventail de sujets, notamment la réduction du biais de surestimation dans l'apprentissage Q, l'entraînement plus efficace des RNN en reformulant l'objectif d'entraînement, et la réduction du biais de sélection lors de l'estimation des effets de traitement à partir de données d'observation.
Découvrez ci-dessous comment les boursiers et chercheurs Amii - professeurs et étudiants de l'Université de l'Alberta - contribuent aux travaux de cette année.
Plusieurs articles co-rédigés par des boursiers Amii et des étudiants ont été acceptés pour être publiés par l'ICLR en 2020 :
- Maxmin Q-learning: Controlling the Estimation Bias of Q-learning
Qingfeng Lan and Yangchen Pan (Amii students), Alona Fyshe and Martha White (Amii Fellows)
Abstract: Q-learning suffers from overestimation bias, because it approximates the maximum action value using the maximum estimated action value. Algorithms have been proposed to reduce overestimation bias, but we lack an understanding of how bias interacts with performance, and the extent to which existing algorithms mitigate bias. In this paper, we 1) highlight that the effect of overestimation bias on learning efficiency is environment-dependent; 2) propose a generalization of Q-learning, called \emph{Maxmin Q-learning}, which provides a parameter to flexibly control bias; 3) show theoretically that there exists a parameter choice for Maxmin Q-learning that leads to unbiased estimation with a lower approximation variance than Q-learning; and 4) prove the convergence of our algorithm in the tabular case, as well as convergence of several previous Q-learning variants, using a novel Generalized Q-learning framework. We empirically verify that our algorithm better controls estimation bias in toy environments, and that it achieves superior performance on several benchmark problems.
- Learning Disentangled Representations for CounterFactual Regression
Negar Hassanpour (Amii student), Russell Greiner (Amii Fellow)
Abstract: We consider the challenge of estimating treatment effects from observational data; and point out that, in general, only some factors based on the observed covariates X contribute to selection of the treatment T, and only some to determining the outcomes Y. We model this by considering three underlying sources of {X, T, Y} and show that explicitly modeling these sources offers great insight to guide designing models that better handle selection bias. This paper is an attempt to conceptualize this line of thought and provide a path to explore it further.
In this work, we propose an algorithm to (1) identify disentangled representations of the above-mentioned underlying factors from any given observational dataset D and (2) leverage this knowledge to reduce, as well as account for, the negative impact of selection bias on estimating the treatment effects from D. Our empirical results show that the proposed method achieves state-of-the-art performance in both individual and population based evaluation measures.
- Banques de mémoire progressives pour l'adaptation incrémentale du domaine
Nabiha Asghar, Lili Mou (Amii Fellow), Kira A. Selby, Kevin D. Pantasdo, Pascal Poupart, Xin Jiang
Résumé : Cet article aborde le problème de l'adaptation incrémentale de domaine (IDA) dans le traitement du langage naturel (NLP). Nous supposons que chaque domaine vient l'un après l'autre, et que nous ne pouvons accéder qu'aux données du domaine actuel. Le but de l'IDA est de construire un modèle unifié performant sur tous les domaines que nous avons rencontrés. Nous adoptons le réseau neuronal récurrent (RNN) largement utilisé dans le domaine du langage naturel, mais nous l'augmentons avec une banque de mémoire directement paramétrée, qui est récupérée par un mécanisme d'attention à chaque étape de la transition du RNN. La banque de mémoire fournit une méthode naturelle d'IDA : lorsque nous adaptons notre modèle à un nouveau domaine, nous ajoutons progressivement de nouveaux emplacements à la banque de mémoire, ce qui augmente le nombre de paramètres, et donc la capacité du modèle. Nous apprenons les nouveaux emplacements de mémoire et affinons les paramètres existants par rétropropagation. Les résultats expérimentaux montrent que notre approche permet d'obtenir de bien meilleures performances que le réglage fin seul. Par rapport à l'expansion des états cachés, notre approche est plus robuste pour les anciens domaines, comme le montrent les résultats empiriques et théoriques. Notre modèle surpasse également les travaux antérieurs de l'IDA, notamment la consolidation par poids élastique et les réseaux neuronaux progressifs dans les expériences.
- Formation en ligne de réseaux neuronaux récurrents par apprentissage de variables d'état explicites
Somjit Nath (ancien élève d'Amii), Vincent Liu, Alan Chan, Xin Li (étudiants d'Amii), Adam White et Martha White (Amii Fellows)
Résumé : Les réseaux neuronaux récurrents (RNN) permettent à un agent de construire une représentation d'état à partir d'un flux d'expérience, ce qui est essentiel dans les problèmes partiellement observables. Cependant, il y a deux problèmes principaux que l'on doit surmonter lors de l'entraînement d'un RNN : la sensibilité de la performance de l'algorithme d'apprentissage à la longueur de la troncature et les longs temps d'entraînement. Il existe une variété de stratégies pour améliorer l'apprentissage des RNN, notamment le Backprop Through Time (BPTT) et l'apprentissage récurrent en temps réel. Cependant, ces stratégies sont généralement coûteuses en termes de calcul et se concentrent sur le calcul des gradients dans le temps. Dans ce travail, nous reformulons l'objectif d'apprentissage des RNN pour apprendre explicitement les vecteurs d'état ; cela rompt la dépendance dans le temps et évite ainsi le besoin d'estimer les gradients loin dans le temps. Nous montrons que pour un tampon fixe de données, notre algorithme, appelé Propagation du point fixe (PPF), est valable : il converge vers un point stationnaire du nouvel objectif. Nous étudions les performances empiriques de notre algorithme FPP en ligne, notamment en termes de calcul par rapport à la TPP tronquée avec différents niveaux de troncature.
- Contrôle de recherche basé sur la fréquence dans Dyna
Yangchen Pan, Jincheng Mei (étudiants d'Amii) et Amir-massoud Farahmand (ancien élève d'Amii)
Résumé : L'apprentissage par renforcement basé sur un modèle a été démontré empiriquement comme une stratégie efficace pour améliorer l'efficacité des échantillons. En particulier, Dyna est une architecture élégante basée sur un modèle intégrant l'apprentissage et la planification qui offre une énorme flexibilité d'utilisation d'un modèle. L'un des composants les plus importants de Dyna est appelé contrôle de recherche, qui se réfère au processus de génération d'états ou de paires état-action à partir desquels nous interrogeons le modèle pour acquérir des expériences simulées. Le contrôle de la recherche est essentiel pour améliorer l'efficacité de l'apprentissage. Dans ce travail, nous proposons une stratégie de contrôle de recherche simple et nouvelle en recherchant des régions de haute fréquence de la fonction de valeur. Notre intuition principale repose sur le théorème d'échantillonnage de Shannon, issu du traitement du signal, qui indique qu'un signal à haute fréquence nécessite plus d'échantillons pour être reconstruit. Nous montrons empiriquement qu'une fonction à haute fréquence est plus difficile à approximer. Cela suggère une stratégie de contrôle de recherche : nous devrions utiliser les états des régions à haute fréquence de la fonction de valeur pour demander au modèle d'acquérir plus d'échantillons. Nous développons une stratégie simple pour mesurer localement la fréquence d'une fonction par le gradient et les normes hessiennes, et nous fournissons une justification théorique de cette approche. Nous appliquons ensuite notre stratégie au contrôle de la recherche dans Dyna, et menons des expériences pour montrer sa propriété et son efficacité sur des domaines de référence.
En outre, Amii organise également trois activités sociales tout au long de la conférence :
- conseiller scientifique en chef d'Amii Dr Richard Sutton animera une session sur ce qu'il appelle la leçon amère de la recherche en IA, à savoir que "les méthodes générales qui tirent parti de l'informatique sont en fin de compte les plus efficaces, et de loin" et que "le succès éventuel est teinté d'amertume, et souvent incomplètement digéré, car il s'agit d'un succès par rapport à une approche privilégiée, centrée sur l'homme".
- Le RL Mixer réunit des chercheurs intéressés par l'apprentissage par renforcement pour une série de discussions en petits groupes formés de manière aléatoire. Les participants auront l'occasion de discuter d'une grande variété de sujets avec de nouvelles personnes grâce aux salles de discussion Zoom, à raison de 30 minutes par discussion de groupe.
- La rencontre des boursiers Amii est l'occasion de rencontrer les boursiers Amii et de participer à des conversations en rapport avec leurs domaines de recherche et leur expérience.
Découvrez comment Amii fait progresser la recherche de pointe en matière d'intelligence artificielle et d'apprentissage automatique : visitez notre site Web. Recherche page.