Amii est fier de partager les efforts et les réalisations de ses chercheurs lors de la 34e conférence sur les systèmes de traitement de l'information neuronale (NeurIPS), qui se déroule cette année en ligne du 6 au 12 décembre.

NeurIPS est l'une des conférences ML & AI les mieux classées au monde, sur la base de son H5-index et de son Impact Score (voir : Google Scholar et Guide2Research). Sur les 8 186 articles examinés cette année, seuls 1 903 ont été acceptés (20,1 %) ; 20 de ces articles ont été cosignés par des chercheurs d'Amii. La conférence présente la recherche sur les systèmes de traitement de l'information neuronale dans leurs aspects biologiques, technologiques, mathématiques et théoriques.

Les articles acceptés et les ateliers des chercheurs de l'Amii couvrent un large éventail de sujets, notamment l'introduction de CoinDICE, un nouvel algorithme efficace pour le calcul des intervalles de confiance, et l'exploration de la sélection séquentielle contextuelle non supervisée (USS), une nouvelle variante du problème des bandits contextuels stochastiques où la perte d'un bras ne peut être déduite du retour d'information observé.

Des boursiers Amii et des titulaires de chaires d'IA du Canada CIFAR - des professeurs de l'Université de l'Alberta, de l'Université Simon Fraser et de l'Université de la Colombie-Britannique - figurent dans les actes, ainsi que d'autres chercheurs Amii :

Articles acceptés

Une approche d'entropie maximale pour l'évaluation de la non-politique dans les PDM à récompense moyenne.

Nevena Lazic, Dong Yin, Mehrdad Farajtabar, Nir Levine, Dilan Gorur, Chris Harris&. Dale Schuurmans Séance de posters: 8 décembre (10h00 - 12h00 MST) Ce travail se concentre sur l'évaluation hors politique (OPE) avec approximation de fonction dans les processus de décision de Markov (MDP) non actualisés à horizon infini. Pour les PDM ergodiques et linéaires (c'est-à-dire lorsque les récompenses et la dynamique sont linéaires dans certaines caractéristiques connues), nous fournissons la première limite d'erreur OPE à échantillon fini, étendant les résultats existants au-delà des cas épisodiques et actualisés. Dans un cadre plus général, lorsque la dynamique des caractéristiques est approximativement linéaire et pour des récompenses arbitraires, nous proposons une nouvelle approche pour l'estimation des distributions stationnaires avec une approximation de la fonction. Nous formulons ce problème comme étant la recherche de la distribution d'entropie maximale sous réserve que les attentes des caractéristiques correspondent à la dynamique empirique. Nous montrons qu'il en résulte une distribution de famille exponentielle dont les statistiques suffisantes sont les caractéristiques, parallèlement aux approches d'entropie maximale dans l'apprentissage supervisé. Nous démontrons l'efficacité des approches OPE proposées dans plusieurs environnements.

Une approche d'apprentissage de fonctions implicites pour la régression modale paramétrique

Yangchen Pan, Ehsan Imani, Amir-massoud Farahmand & Martha White Session de posters: 9 décembre (10 a.m. - 12 p.m. MST) Pour les fonctions à valeurs multiples, par exemple lorsque la distribution conditionnelle sur les cibles compte tenu des entrées est multimodale, les approches de régression standard ne sont pas toujours souhaitables parce qu'elles fournissent la moyenne conditionnelle. Les algorithmes de régression modale résolvent ce problème en trouvant le(s) mode(s) conditionnel(s). La plupart d'entre eux sont toutefois des approches non paramétriques et peuvent donc être difficiles à mettre à l'échelle. En outre, les approximateurs paramétriques, comme les réseaux neuronaux, facilitent l'apprentissage de relations complexes entre les entrées et les cibles. Dans ce travail, nous proposons un algorithme de régression modale paramétrique. Nous utilisons le théorème de la fonction implicite pour développer un objectif d'apprentissage d'une fonction conjointe sur les entrées et les cibles. Nous démontrons empiriquement sur plusieurs problèmes synthétiques que notre méthode (i) peut apprendre des fonctions multi-valuées et produire les modes conditionnels, (ii) s'adapte bien aux entrées de haute dimension, et (iii) peut même être plus efficace pour certains problèmes uni-modaux, en particulier pour les fonctions de haute fréquence. Nous démontrons que notre méthode est compétitive dans un problème réel de régression modale et dans deux ensembles de données de régression régulière.

CoinDICE : Estimation de l'intervalle de confiance hors politique

Bo Dai, Ofir Nachum, Yinlam Chow, Lihong Li, Csaba Szepesvári & Dale Schuurmans Présentation de Spotlight: 7 décembre (8:10 - 8:20 p.m. MST) Poster Session: Décembre 7 (10 p.m. - 12 a.m. MST) Nous étudions l'évaluation hors politique agnostique au comportement à haute confiance dans l'apprentissage par renforcement, où le but est d'estimer un intervalle de confiance sur la valeur d'une politique cible, étant donné seulement l'accès à un ensemble de données d'expérience statique recueilli par des politiques de comportement inconnues. En partant d'une intégration de l'espace fonctionnel de la formulation du programme linéaire de la fonction Q, nous obtenons un problème d'optimisation avec des contraintes d'équation d'estimation généralisées. En appliquant la méthode de la vraisemblance empirique généralisée au lagrangien résultant, nous proposons CoinDICE, un algorithme nouveau et efficace pour le calcul des intervalles de confiance. Sur le plan théorique, nous prouvons que les intervalles de confiance obtenus sont valides, tant dans le régime asymptotique que dans le régime de l'échantillon fini. Empiriquement, nous montrons dans une variété de repères que les estimations des intervalles de confiance sont plus serrées et plus précises que les méthodes existantes.

Méta-apprentissage différentiable des politiques de bandits

Craig Boutilier, Chih-wei Hsu, Branislav Kveton, Martin Mladenov, Csaba Szepesvári et Manzil Zaheer Session de posters: 8 décembre (10 p.m. - 12 a.m. MST) Les politiques d'exploration dans les bandits bayésiens maximisent la récompense moyenne sur les instances du problème tirées d'une certaine distribution P. Dans ce travail, nous apprenons de telles politiques pour une distribution inconnue P en utilisant des échantillons de P. Notre approche est une forme de méta-apprentissage et exploite les propriétés de P sans faire d'hypothèses fortes sur sa forme. Pour ce faire, nous paramétrons nos politiques de manière différentiable et les optimisons par des gradients de politique, une approche agréablement générale et facile à mettre en œuvre. Nous dérivons des estimateurs de gradient efficaces et proposons de nouvelles techniques de réduction de la variance. Nous analysons et expérimentons également diverses classes de politiques de bandits, y compris les réseaux neuronaux et une nouvelle politique de softmax. Cette dernière présente des garanties de regret et constitue un point de départ naturel pour notre optimisation. Nos expériences montrent la polyvalence de notre approche. Nous observons également que les politiques de réseaux neuronaux peuvent apprendre des biais implicites exprimés uniquement à travers les instances échantillonnées.

Planification efficace dans les grands PDM avec une approximation faible de la fonction linéaire.

Roshan Shariff & Csaba Szepesvári Session de posters: Décembre 8 (10 a.m. - 12 p.m. MST) Les processus de décision de Markov (MDP) à grande échelle requièrent des algorithmes de planification dont le temps d'exécution est indépendant du nombre d'états du MDP. Nous considérons le problème de la planification dans les PDM en utilisant l'approximation de la fonction de valeur linéaire avec seulement des exigences faibles : une faible erreur d'approximation pour la fonction de valeur optimale, et un petit ensemble d'états "centraux" dont les caractéristiques couvrent celles des autres états. En particulier, nous ne faisons aucune hypothèse sur la représentabilité des politiques ou des fonctions de valeur des politiques non optimales. Notre algorithme produit des actions presque optimales pour n'importe quel état en utilisant un oracle génératif (simulateur) pour le MDP, tandis que son temps de calcul s'étend de façon polynomiale avec le nombre de caractéristiques, d'états centraux et d'actions, ainsi qu'avec l'horizon effectif.

Échapper à l'attraction gravitationnelle de Softmax

Jincheng Mei, Chenjun Xiao, Bo Dai, Lihong Li, Csaba Szepesvári & Dale Schuurmans Spotlight Presentation: December 8 (7:15 - 7:30 a.m. MST) Poster Session: December 8 (10 a.m. - 12 p.m. MST) The softmax is the standard transformation used in machine learning to map real-valued vectors to categorical distributions. Unfortunately, this transform poses serious drawbacks for gradient descent (ascent) optimization. We reveal this difficulty by establishing two negative results: (1) optimizing any expectation with respect to the softmax must exhibit sensitivity to parameter initialization ("softmax gravity well''), and (2) optimizing log-probabilities under the softmax must exhibit slow convergence ("softmax damping''). Both findings are based on an analysis of convergence rates using the Non-uniform \L{}ojasiewicz (N\L{}) inequalities. To circumvent these shortcomings we investigate an alternative transformation, the \emph{escort} mapping, that demonstrates better optimization properties. The disadvantages of the softmax and the effectiveness of the escort transformation are further explained using the concept of N\L{} coefficient. In addition to proving bounds on convergence rates to firmly establish these results, we also provide experimental evidence for the superiority of the escort transformation.

Exemple d'apprentissage actif guidé

Jason S. Hartford, Kevin Leyton-BrownHadas Raviv, Dan Padnos, Shahar Lev, Barak Lenz Session de posters: 9 décembre (22 h - 12 h MST) Nous examinons le problème de l'utilisation judicieuse d'un budget limité pour étiqueter un petit sous-ensemble d'un grand ensemble de données non étiquetées. Prenons par exemple le problème de désambiguïsation du sens des mots. Pour tout mot, nous disposons d'un ensemble d'étiquettes candidates provenant d'une base de connaissances, mais l'ensemble d'étiquettes n'est pas nécessairement représentatif de ce qui se passe dans les données : il peut exister des étiquettes dans la base de connaissances qui apparaissent très rarement dans le corpus parce que le sens est rare en anglais moderne ; et inversement, il peut exister des étiquettes vraies qui n'existent pas dans notre base de connaissances. Notre objectif est d'obtenir un classificateur qui soit aussi performant que possible sur les exemples de chaque "classe commune" qui apparaît avec une fréquence supérieure à un seuil donné dans l'ensemble non étiqueté, tout en annotant le moins possible d'exemples de "classes rares" dont les étiquettes apparaissent avec une fréquence inférieure à ce seuil. La difficulté réside dans le fait que nous ne savons pas quelles étiquettes sont communes et lesquelles sont rares, et que la véritable distribution des étiquettes peut présenter une asymétrie extrême. Nous décrivons une approche d'apprentissage actif qui (1) recherche explicitement les classes rares en exploitant les espaces d'intégration contextuelle fournis par les modèles de langage modernes, et (2) incorpore une règle d'arrêt qui ignore les classes une fois que nous avons prouvé qu'elles se produisent en dessous de notre seuil cible avec une forte probabilité. Nous prouvons que notre algorithme ne coûte que logarithmiquement plus cher qu'une approche hypothétique qui connaît toutes les vraies fréquences d'étiquettes et nous montrons expérimentalement que l'incorporation de la recherche automatisée peut réduire de manière significative le nombre d'échantillons nécessaires pour atteindre les niveaux de précision visés.

ImpatientCapsAndRuns : Configuration approximativement optimale des algorithmes à partir d'une réserve infinie

Gellert Weisz, András György, Wei-I Lin, Devon Graham, Kevin Leyton-Brown, Csaba Szepesvári et Brendan Lucier Session de posters: 10 décembre (10 p.m. - 12 a.m. MST) Les procédures de configuration d'algorithmes optimisent les paramètres d'un algorithme donné pour qu'il soit performant sur une distribution d'entrées. Les travaux théoriques récents se sont concentrés sur le cas de la sélection entre un petit nombre d'alternatives. En pratique, les espaces de paramètres sont souvent très vastes, voire infinis, et les procédures heuristiques efficaces rejettent donc des paramètres "impatiemment", sur la base de très peu d'observations. Inspirés par cette idée, nous présentons ImpatientCapsAndRuns, qui écarte rapidement les configurations les moins prometteuses, accélérant ainsi considérablement la procédure de recherche par rapport aux algorithmes précédents avec des garanties théoriques, tout en atteignant une durée d'exécution optimale jusqu'à des facteurs logarithmiques sous des hypothèses modérées. Les résultats expérimentaux démontrent une amélioration pratique.

Apprentissage de modèles discrets basés sur l'énergie via l'exploration locale de variables auxiliaires

Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, Dale Schuurmans Session de posters: 8 décembre (22h - 12h MST) Les structures discrètes jouent un rôle important dans des applications telles que la modélisation des langages de programmation et le génie logiciel. Les approches actuelles pour prédire les structures complexes considèrent typiquement les modèles autorégressifs pour leur tractabilité, avec un certain sacrifice en termes de flexibilité. Les modèles basés sur l'énergie (EBM), quant à eux, offrent une approche plus flexible et donc plus puissante pour modéliser de telles distributions, mais nécessitent une estimation de la fonction de partition. Dans cet article, nous proposons \modelshort, un nouvel algorithme d'apprentissage des EBM conditionnels et inconditionnels pour les données structurées discrètes, où les gradients des paramètres sont estimés à l'aide d'un échantillonneur appris qui imite la recherche locale. Nous montrons que la fonction d'énergie et l'échantillonneur peuvent être formés efficacement grâce à une nouvelle forme variationnelle d'itération de puissance, ce qui permet d'obtenir un meilleur compromis entre la flexibilité et la traçabilité. Expérimentalement, nous montrons que l'apprentissage de la recherche locale conduit à des améliorations significatives dans des domaines d'application difficiles. Plus particulièrement, nous présentons un fuzzer guidé par un modèle d'énergie pour le test de logiciels qui atteint des performances comparables à celles de moteurs de fuzzing bien conçus tels que libfuzzer.

Utilité marginale pour la planification dans des espaces d'action continus ou discrets de grande taille

Zaheen Ahmad, Levi Lelis & Michael Bowling Session de posters: 8 décembre (22h - 12h MST) La planification par échantillonnage est une puissante famille d'algorithmes permettant de générer un comportement intelligent à partir d'un modèle de l'environnement. La génération de bonnes actions candidates est essentielle au succès des planificateurs à base d'échantillons, en particulier dans les espaces d'action continus ou de grande taille. Généralement, la génération d'actions candidates épuise l'espace d'action, utilise la connaissance du domaine ou, plus récemment, implique l'apprentissage d'une politique stochastique pour fournir une telle orientation de recherche. Dans cet article, nous explorons l'apprentissage explicite d'un générateur d'actions candidat en optimisant un nouvel objectif, l'utilité marginale. L'utilité marginale d'un générateur d'actions mesure l'augmentation de la valeur d'une action par rapport aux actions précédemment générées. Nous validons notre approche à la fois pour le curling, un domaine stochastique difficile avec des espaces d'état et d'action continus, et pour un jeu de localisation avec un espace d'action discret mais large. Nous montrons qu'un générateur entraîné avec l'objectif d'utilité marginale surpasse les schémas codés à la main construits sur une connaissance substantielle du domaine, des politiques stochastiques entraînées et d'autres objectifs naturels pour générer des actions pour les planificateurs basés sur l'échantillonnage.

Sélection de modèles dans les problèmes de bandits stochastiques contextuels

Aldo Pacchiano, My Phan, Yasin Abbasi Yadkori, Anup Rao, Julian Zimmert, Tor Lattimore & Csaba Szepesvári Poster Session: December 10 (10 a.m. - 12 p.m. MST) We study bandit model selection in stochastic environments. Our approach relies on a master algorithm that selects between candidate base algorithms. We develop a master-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial master algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal O(√T) model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has O(logT) regret, in general it is impossible to get better than Ω(√T) regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits \citep{lattimore2019learning}, linear bandit with unknown dimension \citep{Foster-Krishnamurthy-Luo-2019} and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the master learning rate. We show that without such prior knowledge any master can suffer a regret larger than the optimal base regret.

MultiON : évaluation de la mémoire des cartes sémantiques à l'aide de la navigation multi-objets

Saim Wani, Shivansh Patel, Unnat Jain, Angel Chang & Manolis Savva Session de posters: 8 décembre (10h00 - 12h00 MST) Les tâches de navigation dans des environnements 3D photoréalistes sont difficiles car elles requièrent une perception et une planification efficace en cas d'observabilité partielle. Des travaux récents montrent que la mémoire cartographique est utile pour les tâches de navigation à long terme. Cependant, une étude ciblée de l'impact des cartes sur des tâches de navigation de complexité variable n'a pas encore été réalisée. Nous proposons la tâche multiON, qui requiert la navigation vers une séquence d'objets spécifique à un épisode dans un environnement réaliste. MultiON généralise la tâche de navigation ObjectGoal et teste explicitement la capacité des agents de navigation à localiser des objets précédemment observés. Nous réalisons une série d'expériences multiON afin d'examiner les performances d'une variété de modèles d'agents à travers un spectre de complexités de tâches de navigation. Nos expériences montrent que : i) la performance de navigation se dégrade considérablement avec l'augmentation de la complexité de la tâche ; ii) un simple agent de carte sémantique est étonnamment performant par rapport à des agents de carte d'image neuronale plus complexes ; et iii) même les agents de carte oracle atteignent une performance relativement faible, ce qui indique le potentiel de travaux futurs dans la formation d'agents de navigation incarnés utilisant des cartes.

Évaluation hors politique via le Lagrangien régularisé

Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li & Dale Schuurmans Session de posters: 7 décembre (22 h - 12 h MST) La famille d'estimateurs DICE (estimation avec correction de la distribution), récemment proposée, a fait progresser l'état de l'art en matière d'évaluation hors politique à partir de données agnostiques sur le comportement. Bien que ces estimateurs effectuent tous une certaine forme de correction de la distribution stationnaire, ils découlent de dérivations et de fonctions objectives différentes. Dans cet article, nous unifions ces estimateurs en tant que Lagrangiens régularisés du même programme linéaire. Cette unification nous permet d'élargir l'espace des estimateurs DICE à de nouvelles alternatives qui démontrent une performance améliorée. Plus important encore, en analysant l'espace élargi des estimateurs à la fois mathématiquement et empiriquement, nous constatons que les solutions duales offrent une plus grande flexibilité dans le compromis entre la stabilité de l'optimisation et le biais de l'estimation, et fournissent généralement des estimations supérieures dans la pratique.

Algorithme en ligne pour la sélection séquentielle non supervisée avec information contextuelle

Arun Verma, Manjesh Kumar Hanawal, Csaba Szepesvári & Venkatesh Saligrama Séance de posters: 8 décembre (10 h - 12 h MST) Dans cet article, nous étudions la sélection séquentielle non supervisée contextuelle (USS), une nouvelle variante du problème des bandits contextuels stochastiques où la perte d'un bras ne peut pas être déduite du retour d'information observé. Dans notre configuration, les bras sont associés à des coûts fixes et sont ordonnés, formant une cascade. À chaque tour, un contexte est présenté et l'apprenant sélectionne les bras séquentiellement jusqu'à une certaine profondeur. Le coût total encouru en s'arrêtant à un bras est la somme des coûts fixes des bras sélectionnés et de la perte stochastique associée au bras. L'objectif de l'apprenant est d'apprendre une règle de décision qui associe les contextes aux bras dans le but de minimiser la perte totale attendue. Le problème est difficile car nous sommes confrontés à un cadre non supervisé, la perte totale ne pouvant être estimée. Il est clair que l'apprentissage n'est possible que si le bras optimal peut être déduit (explicitement ou implicitement) de la structure du problème. Nous observons que l'apprentissage est toujours possible lorsque l'instance du problème satisfait à la propriété dite de "dominance faible contextuelle" (CWD). Sous CWD, nous proposons un algorithme pour le problème USS contextuel et démontrons qu'il a un regret sous-linéaire. Des expériences sur des ensembles de données synthétiques et réelles valident notre algorithme.

L'analyse PAC-Bayes au-delà des limites habituelles

Omar Rivasplata, Ilja Kuzborskij, Csaba Szepesvári et John Shawe-Taylor Séance de posters: 8 décembre (10 a.m. - 12 p.m. MST) Nous nous concentrons sur un modèle d'apprentissage stochastique où l'apprenant observe un ensemble fini d'exemples de formation et la sortie du processus d'apprentissage est une distribution dépendante des données sur un espace d'hypothèses. La distribution dépendante des données apprise est ensuite utilisée pour faire des prédictions aléatoires, et le thème de haut niveau abordé ici est la garantie de la qualité des prédictions sur des exemples qui n'ont pas été vus pendant la formation, c'est-à-dire la généralisation. Dans ce contexte, la quantité inconnue qui nous intéresse est le risque attendu du prédicteur aléatoire dépendant des données, pour lequel des bornes supérieures peuvent être dérivées via une analyse PAC-Bayes, conduisant à des bornes PAC-Bayes. Plus précisément, nous présentons une inégalité de base de PAC-Bayes pour les noyaux stochastiques, à partir de laquelle on peut dériver des extensions de diverses bornes de PAC-Bayes connues ainsi que de nouvelles bornes. Nous clarifions le rôle des exigences relatives aux antécédents fixes "sans données", aux pertes limitées et aux données i.i.d. Nous soulignons que ces exigences ont été utilisées pour déterminer les limites de l'inégalité de PAC-Bayes pour les noyaux stochastiques. Nous soulignons que ces conditions ont été utilisées pour limiter la valeur supérieure d'un terme de moment exponentiel, alors que le théorème de base de PAC-Bayes reste valable sans ces restrictions. Nous présentons trois bornes qui illustrent l'utilisation de prieurs dépendant des données, dont une pour la perte carrée non bornée.

Limites de regret sans continuité de Lipschitz : Apprentissage en ligne avec des pertes relatives de Lipschitz.

Yihan Zhou, Victor Sanches Portella, Mark SchmidtNicholas Harvey Session de posters: Décembre 10 (10 a.m. - 12 p.m. MST) Dans l'optimisation convexe en ligne (OCO), la continuité Lipschitz des fonctions est généralement supposée afin d'obtenir un regret sous-linéaire. En outre, de nombreux algorithmes n'ont qu'un regret logarithmique lorsque ces fonctions sont également fortement convexes. Récemment, des chercheurs en optimisation convexe ont proposé les notions de "continuité de Lipschitz relative" et de "convexité forte relative". Ces deux notions sont des généralisations de leurs équivalents classiques. Il a été démontré que les méthodes de sous-gradient dans le cadre relatif ont des performances analogues à celles qu'elles ont dans le cadre classique. Dans ce travail, nous considérons l'OCO pour les fonctions Lipschitz relatives et les fonctions fortement convexes relatives. Nous étendons les limites de regret connues pour les algorithmes OCO classiques au cadre relatif. Plus précisément, nous montrons des limites de regret pour les algorithmes de suivi du leader régularisé et une variante de la descente miroir en ligne. En raison de la généralité de ces méthodes, ces résultats donnent des limites de regret pour une grande variété d'algorithmes OCO. En outre, nous étendons les résultats aux algorithmes avec régularisation supplémentaire, tels que la moyenne duale régularisée.

Apprentissage par transfert d'espace partagé pour l'analyse de données IRMf multi-sites

Muhammad YousefnezhadAlessandro Selvitella, Daoqiang Zhang, Andrew Greenshaw & Russell Greiner Session de posters: 10 décembre (10 h - 12 h HNR) L'analyse de modèles multivoxels (MVPA) apprend des modèles prédictifs à partir de données d'imagerie par résonance magnétique fonctionnelle (IRMf) basées sur des tâches, afin de distinguer quand les sujets effectuent différentes tâches cognitives - par exemple, regarder des films ou prendre des décisions. MVPA fonctionne mieux avec un ensemble de caractéristiques bien conçu et un échantillon de taille adéquate. Cependant, la plupart des ensembles de données d'IRMf sont bruyants, à haute dimension, coûteux à collecter et avec des échantillons de petite taille. En outre, la formation d'un modèle prédictif robuste et généralisé capable d'analyser des tâches cognitives homogènes fournies par des ensembles de données d'IRMf multisites présente des difficultés supplémentaires. Cet article propose le Shared Space Transfer Learning (SSTL) comme une nouvelle approche d'apprentissage par transfert (TL) capable d'aligner fonctionnellement des ensembles de données IRMf multisites homogènes et d'améliorer ainsi les performances de prédiction dans chaque site. Le SSTL commence par extraire un ensemble de caractéristiques communes à tous les sujets de chaque site. Il utilise ensuite TL pour cartographier ces caractéristiques spécifiques à chaque site dans un espace partagé indépendant du site afin d'améliorer les performances de la MVPA. SSTL utilise une procédure d'optimisation évolutive qui fonctionne efficacement pour les ensembles de données IRMf à haute dimension. La procédure d'optimisation extrait les caractéristiques communes pour chaque site à l'aide d'un algorithme à itération unique et met en correspondance ces caractéristiques communes spécifiques au site avec l'espace partagé indépendant du site. Nous évaluons l'efficacité de la méthode proposée pour le transfert entre diverses tâches cognitives. Nos expériences approfondies confirment que la méthode SSTL est plus performante que d'autres techniques d'analyse de pointe.

Vers une amélioration sûre des politiques pour les PDM non stationnaires

Yash Chandak, Scott Jordan, Georgios Theocharous, Martha White et Philip S. Thomas Présentation de Spotlight: 9 décembre (9 - 9:10 a.m. MST) Poster Session: Décembre 9 (10 a.m. - 12 p.m. MST) De nombreux problèmes de prise de décision séquentielle dans le monde réel impliquent des systèmes critiques avec des risques financiers et des risques pour la vie humaine. Bien que plusieurs travaux dans le passé aient proposé des méthodes sûres pour le déploiement, ils supposent que le problème sous-jacent est stationnaire. Cependant, de nombreux problèmes réels d'intérêt présentent une non-stationnarité, et lorsque les enjeux sont élevés, le coût associé à une fausse hypothèse de stationnarité peut être inacceptable. Nous faisons les premiers pas vers la garantie de la sécurité, avec une grande confiance, pour les problèmes de décision non stationnaires à variation régulière. La méthode que nous proposons étend un type d'algorithme sûr, appelé algorithme seldonien, par une synthèse de l'apprentissage par renforcement sans modèle et de l'analyse des séries temporelles. La sécurité est assurée à l'aide de tests d'hypothèse séquentiels des performances prévues d'une politique, et les intervalles de confiance sont obtenus à l'aide du bootstrap sauvage.

Génération de texte non supervisée par apprentissage à partir de la recherche

Jingjing Li, Zichao Li, Lili MouXin Jiang, Michael Lyu & Irwin King Session de posters: 9 décembre (10 h - 12 h MST) Dans ce travail, nous proposons TGLS, un nouveau cadre pour la génération de texte non supervisée par apprentissage à partir de la recherche. Nous commençons par appliquer un algorithme de recherche fort (en particulier, le recuit simulé) vers un objectif défini de manière heuristique qui estime (grossièrement) la qualité des phrases. Ensuite, un modèle génératif conditionnel apprend à partir des résultats de la recherche et, entre-temps, lisse le bruit de la recherche. L'alternance entre la recherche et l'apprentissage peut être répétée pour l'amélioration des performances. Nous démontrons l'efficacité de TGLS sur deux tâches réelles de génération de langage naturel, la paraphrase non supervisée et la formalisation de texte. Notre modèle surpasse de manière significative les méthodes de référence non supervisées dans les deux tâches. En particulier, il atteint des performances comparables à celles des méthodes fortement supervisées pour la génération de paraphrases.

Méthode de gradient de politique variationnelle pour l'apprentissage par renforcement avec des utilités générales

Junyu Zhang, Alec Koppel, Amrit Singh Bedi, Csaba Szepesvári & Mengdi Wang Spotlight Presentation: December 8 (9:10 - 9:20 a.m. MST) Poster Session: December 8 (10 a.m. - 12 p.m. MST) In recent years, reinforcement learning systems with general goals beyond a cumulative sum of rewards have gained traction, such as in constrained problems, exploration, and acting upon prior experiences. In this paper, we consider policy optimization in Markov Decision Problems, where the objective is a general utility function of the state-action occupancy measure, which subsumes several of the aforementioned examples as special cases. Such generality invalidates the Bellman equation. As this means that dynamic programming no longer works, we focus on direct policy search. Analogously to the Policy Gradient Theorem \cite{sutton2000policy} available for RL with cumulative rewards, we derive a new Variational Policy Gradient Theorem for RL with general utilities, which establishes that the gradient may be obtained as the solution of a stochastic saddle point problem involving the Fenchel dual of the utility function. We develop a variational Monte Carlo gradient estimation algorithm to compute the policy gradient based on sample paths. Further, we prove that the variational policy gradient scheme converges globally to the optimal policy for the general objective, and we also establish its rate of convergence that matches or improves the convergence rate available in the case of RL with cumulative rewards.

Ateliers

Organisateurs :

OPT2020 : Optimisation pour l'apprentissage automatique: L'optimisation est au cœur de nombreux algorithmes d'apprentissage automatique et jouit d'un grand intérêt dans la communauté. Cette relation intime entre l'optimisation et l'apprentissage automatique est la motivation principale de la série d'ateliers OPT, co-organisée par la Chaire CIFAR AI du Canada à Amii. Mark Schmidt.
Optimisation de la politique dans l'apprentissage par renforcementco-organisé par Sham Kakade, Martha White (Amii Fellow et Canada CIFAR AI Chair) et Nicolas Le Roux ; avec l'aide d'Alan Chan, ancien élève d'Amii, et des chercheurs d'Amii Shivan Garg, Dhawal Gupta et Abhishek Naik.

Les orateurs :

Parler à des étrangers : La communication émergente à coup zéro: La communication est l'une des capacités humaines les plus impressionnantes, mais elle a été historiquement étudiée en ML principalement sur des ensembles de données confinés de langage naturel. Grâce à la RL profonde, la communication émergente peut désormais être étudiée dans des scénarios multi-agents complexes. Cet atelier comprend un exposé de l'Amii Fellow Michael Bowling intitulé "Hindsight Rationality : Alternatives à Nash", qui explore certains des principes souvent non déclarés communs à la recherche sur l'apprentissage multi-agents qui peuvent entraver le progrès, et suggère un ensemble alternatif de principes.
NewInML : Un atelier pour les nouveaux venus dans l'apprentissage automatique: C'est la première fois que vous soumettez un article à une conférence de haut niveau ? Avez-vous déjà souhaité que votre travail soit reconnu par une communauté large et active ? Alors l'atelier NewInML est fait pour vous ! Boursier Amii Michael Bowling participera à une table ronde avec d'autres évaluateurs et chercheurs de haut niveau de NeurIPS.

Publications papier :

Les articles suivants, rédigés par des chercheurs d'Amii, ont été acceptés dans des ateliers (veuillez consulter les sites individuels pour connaître les heures de présentation) :

ZORB : un algorithme de rétropropagation sans dérivation pour les réseaux neuronaux par Varun Ranganathan & Alex Lewandowski à Beyond BackPropagation : Nouvelles idées pour l'entraînement des architectures neuronales
Étude des réseaux de coagulants pour l'apprentissage supervisé par Dhawal Gupta, Matthew SchlegelJames Kostas, Gabor Mihucz & Martha White à Au-delà de la rétropropagation : Nouvelles idées pour la formation d'architectures neuronales
L'interaction entre la recherche et la descente de gradient dans les problèmes d'apprentissage semi-stationnaires par Shibhansh Dohare, Rupam Mahmood & Richard SuttonBeyond BackPropagation : Nouvelles idées pour la formation d'architectures neuronales
Affectation de crédits pour le réseau Hindsight par Kenny Young à Beyond BackPropagation : Nouvelles idées pour la formation d'architectures neuronales
Problèmes de prédiction inspirés de l'apprentissage animal par Banafsheh Rafiee, Sina Ghiassian, Richard SuttonElliot A Ludvig & Adam White à l'atelier sur l'apprentissage par renforcement biologique et artificiel
Optimisation de la politique de descente en miroir par Manan TomarLior Shani, Yonathan Efroni, Mohammad Ghavamzadeh au Deep Reinforcement Learning Workshop.
Formulation de la récompense maximale dans l'apprentissage par renforcement par Sai Krishna Gottipati, Yashaswi Pathak, Rohan Nuttall, SahirRaviteja Chunduru, Ahmed Touati, Sriram Ganapathi Subramanian, Matthew E. TaylorSarath Chandar à l'atelier sur l'apprentissage par renforcement profond
Des architectures d'autoencodeurs variationnels qui excellent par Negar Hassanpour & Russell Greiner à l'atelier Causal Discovery & Causality-Inspired Machine Learning (Découverte causale et apprentissage automatique inspiré par la causalité)
Rendre les hyper-paramètres de l'optimisation de la politique proximale robustes à la discrétisation temporelle par Homayoon Farrahi & Rupam Mahmood à l'atelier sur l'apprentissage des robots

Tutoriels

En outre, la boursière Amii et titulaire de la chaire CIFAR AI au Canada, Martha White, a été invitée à participer à la conférence. Martha White co-présentera les tutoriels suivants :

Optimisation des politiques dans l'apprentissage par renforcement

Sham M Kakade, Martha White & Nicolas Le Roux
7 décembre (12 h - 14 h 30 MST)

Questions et réponses du tutoriel

Sham M Kakade, Martha White & Nicolas Le Roux
10 décembre (14 h - 14 h 50 HNR)

Examen de

Les chercheurs d'Amii ont également été récompensés pour s'être classés parmi les 10 % d'évaluateurs les mieux notés pour NeurIPS cette année ! Félicitations à Dustin Morrill, Sina Ghiassian, Alex Kearney, Eric Graves, Kris De AsisAncien élève d'Amii Alan Chanboursier de l'Amii Russ Greiner & Chaire CIFAR d'IA du Canada à l'Amii Angel Chang.

Boursiers Amii Csaba Szepesvári et Dale Schuurmans ont également été membres du Senior Area Chair (SAC) ; seuls 63 chercheurs ont été choisis pour cet honneur. Les membres du SAC ont supervisé le travail des présidents de domaine et veillé au bon déroulement du processus d'évaluation.