Amii est fier de partager les efforts et les réalisations de ses chercheurs lors de la 34e conférence sur les systèmes de traitement de l'information neuronale (NeurIPS), qui se déroule cette année en ligne du 6 au 12 décembre.
NeurIPS est l'une des conférences ML & AI les mieux classées au monde, sur la base de son indice H5 et de son score d'impact (voir : Google Scholar et Guide2Research). Sur les 8 186 articles examinés cette année, seuls 1 903 articles ont été acceptés (20,1 %) ; 20 de ces articles ont été cosignés par des chercheurs d'Amii. La conférence présente la recherche sur les systèmes de traitement de l'information neuronale dans leurs aspects biologiques, technologiques, mathématiques et théoriques.
Les articles acceptés et les ateliers des chercheurs de l'Amii couvrent un large éventail de sujets, notamment l'introduction de CoinDICE, un nouvel algorithme efficace pour le calcul des intervalles de confiance, et l'exploration de la sélection séquentielle contextuelle non supervisée (USS), une nouvelle variante du problème des bandits contextuels stochastiques où la perte d'un bras ne peut être déduite du retour d'information observé.
Des boursiers Amii et des titulaires de chaires d'IA du Canada CIFAR - des professeurs de l'Université de l'Alberta, de l'Université Simon Fraser et de l'Université de la Colombie-Britannique - figurent dans les actes, ainsi que d'autres chercheurs Amii :
Articles acceptés
Une approche d'entropie maximale pour l'évaluation de la non-politique dans les PDM à récompense moyenne.
- Nevena Lazic, Dong Yin, Mehrdad Farajtabar, Nir Levine, Dilan Gorur, Chris Harris &. Dale Schuurmans
Session de posters: 8 décembre (10 h - 12 h MST)
Ce travail porte sur l'évaluation hors politique (OPE) avec approximation de fonction dans les processus de décision de Markov (MDP) non actualisés à horizon infini. Pour les MDPs qui sont ergodiques et linéaires (c'est-à-dire où les récompenses et la dynamique sont linéaires dans certaines caractéristiques connues), nous fournissons la première limite d'erreur OPE en échantillon fini, étendant les résultats existants au-delà des cas épisodiques et actualisés. Dans un cadre plus général, lorsque la dynamique des caractéristiques est approximativement linéaire et pour des récompenses arbitraires, nous proposons une nouvelle approche pour estimer les distributions stationnaires avec une approximation de fonction. Nous formulons ce problème comme la recherche de la distribution d'entropie maximale soumise à la correspondance des attentes des caractéristiques dans le cadre de la dynamique empirique. Nous montrons qu'il en résulte une distribution de famille exponentielle dont les statistiques suffisantes sont les caractéristiques, parallèlement aux approches de l'entropie maximale dans l'apprentissage supervisé. Nous démontrons l'efficacité des approches OPE proposées dans plusieurs environnements.
Une approche d'apprentissage de fonctions implicites pour la régression modale paramétrique
- Yangchen Pan, Ehsan Imani, Amir-massoud Farahmand & Martha White
Séance de posters: 9 décembre (10 h - 12 h MST)
Pour les fonctions à valeurs multiples - par exemple lorsque la distribution conditionnelle des cibles compte tenu des entrées est multimodale - les approches de régression standard ne sont pas toujours souhaitables car elles fournissent la moyenne conditionnelle. Les algorithmes de régression modale résolvent ce problème en trouvant plutôt le(s) mode(s) conditionnel(s). La plupart d'entre eux, cependant, sont des approches non paramétriques et peuvent donc être difficiles à mettre à l'échelle. De plus, les approximateurs paramétriques, comme les réseaux neuronaux, facilitent l'apprentissage de relations complexes entre les entrées et les cibles. Dans ce travail, nous proposons un algorithme de régression modale paramétrique. Nous utilisons le théorème de la fonction implicite pour développer un objectif, pour apprendre une fonction conjointe sur les entrées et les cibles. Nous démontrons empiriquement sur plusieurs problèmes synthétiques que notre méthode (i) peut apprendre des fonctions multivaluées et produire les modes conditionnels, (ii) s'adapte bien aux entrées à haute dimension, et (iii) peut même être plus efficace pour certains problèmes uni-modaux, en particulier pour les fonctions à haute fréquence. Nous démontrons que notre méthode est compétitive dans un problème de régression modale du monde réel et dans deux ensembles de données de régression régulière.
CoinDICE : Estimation de l'intervalle de confiance hors politique
- Bo Dai, Ofir Nachum, Yinlam Chow, Lihong Li, Csaba Szepesvári & Dale Schuurmans
Présentation Spotlight: 7 décembre (20 h 10 - 20 h 20 MST)
Session d'affiches: 7 décembre (22 h - 12 h MST)
Nous étudions l'évaluation hors-politique agnostique de comportement à haute confiance dans l'apprentissage par renforcement, où l'objectif est d'estimer un intervalle de confiance sur la valeur d'une politique cible, en ayant seulement accès à un ensemble de données d'expérience statiques collectées par des politiques de comportement inconnues. En partant d'une intégration dans l'espace des fonctions de la formulation du programme linéaire de la fonction Q, nous obtenons un problème d'optimisation avec des contraintes d'équation d'estimation généralisée. En appliquant la méthode de vraisemblance empirique généralisée au Lagrangien résultant, nous proposons CoinDICE, un algorithme nouveau et efficace pour le calcul des intervalles de confiance. Théoriquement, nous prouvons que les intervalles de confiance obtenus sont valides, à la fois dans les régimes asymptotique et d'échantillon fini. Empiriquement, nous montrons dans une variété de benchmarks que les estimations des intervalles de confiance sont plus serrées et plus précises que les méthodes existantes.
Méta-apprentissage différentiable des politiques de bandits
- Craig Boutilier, Chih-wei Hsu, Branislav Kveton, Martin Mladenov, Csaba Szepesvári & Manzil Zaheer
Session de posters: 8 décembre (10 h - 12 h MST)
Les politiques d'exploration dans les bandits bayésiens maximisent la récompense moyenne sur les instances du problème tirées d'une certaine distribution P. Dans ce travail, nous apprenons de telles politiques pour une distribution P inconnue en utilisant des échantillons de P. Notre approche est une forme de méta-apprentissage et exploite les propriétés de P sans faire de fortes hypothèses sur sa forme. Pour ce faire, nous paramétrons nos politiques de manière différentiable et les optimisons par des gradients de politique, une approche agréablement générale et facile à mettre en œuvre. Nous dérivons des estimateurs de gradient efficaces et proposons de nouvelles techniques de réduction de la variance. Nous analysons et expérimentons également diverses classes de politiques de bandits, y compris les réseaux neuronaux et une nouvelle politique softmax. Cette dernière présente des garanties de regret et constitue un point de départ naturel pour notre optimisation. Nos expériences montrent la polyvalence de notre approche. Nous observons également que les politiques de réseaux neuronaux peuvent apprendre des biais implicites exprimés uniquement par les instances échantillonnées.
Planification efficace dans les grands PDM avec une approximation faible de la fonction linéaire.
- Roshan Shariff & Csaba Szepesvári
Session de posters: 8 décembre (10 h - 12 h MST)
Les processus de décision de Markov (PDM) à grande échelle nécessitent des algorithmes de planification dont le temps d'exécution est indépendant du nombre d'états du PDM. Nous considérons le problème de planification dans les MDPs en utilisant l'approximation linéaire de la fonction de valeur avec seulement des exigences faibles : une faible erreur d'approximation pour la fonction de valeur optimale, et un petit ensemble d'états " centraux " dont les caractéristiques couvrent celles des autres états. En particulier, nous ne faisons aucune hypothèse sur la représentabilité des politiques ou des fonctions de valeur des politiques non-optimales. Notre algorithme produit des actions quasi-optimales pour n'importe quel état en utilisant un oracle génératif (simulateur) pour le MDP, tandis que son temps de calcul s'échelonne de façon polynomiale avec le nombre de caractéristiques, d'états centraux et d'actions et l'horizon effectif.
Échapper à l'attraction gravitationnelle de Softmax
- Jincheng Mei, Chenjun Xiao, Bo Dai, Lihong Li, Csaba Szepesvári & Dale Schuurmans
Spotlight Presentation: December 8 (7:15 - 7:30 a.m. MST)
Poster Session: December 8 (10 a.m. - 12 p.m. MST)
The softmax is the standard transformation used in machine learning to map real-valued vectors to categorical distributions. Unfortunately, this transform poses serious drawbacks for gradient descent (ascent) optimization. We reveal this difficulty by establishing two negative results: (1) optimizing any expectation with respect to the softmax must exhibit sensitivity to parameter initialization ("softmax gravity well''), and (2) optimizing log-probabilities under the softmax must exhibit slow convergence ("softmax damping''). Both findings are based on an analysis of convergence rates using the Non-uniform \L{}ojasiewicz (N\L{}) inequalities. To circumvent these shortcomings we investigate an alternative transformation, the \emph{escort} mapping, that demonstrates better optimization properties. The disadvantages of the softmax and the effectiveness of the escort transformation are further explained using the concept of N\L{} coefficient. In addition to proving bounds on convergence rates to firmly establish these results, we also provide experimental evidence for the superiority of the escort transformation.
Exemple d'apprentissage actif guidé
- Jason S. Hartford, Kevin Leyton-BrownHadas Raviv, Dan Padnos, Shahar Lev, Barak Lenz
Session de posters: 9 décembre (22 h - 12 h MST)
Nous considérons le problème de l'utilisation judicieuse d'un budget limité pour étiqueter un petit sous-ensemble d'un grand ensemble de données non étiquetées. Par exemple, considérons le problème de la désambiguïsation du sens des mots. Pour tout mot, nous disposons d'un ensemble d'étiquettes candidates provenant d'une base de connaissances, mais l'ensemble d'étiquettes n'est pas nécessairement représentatif de ce qui se passe dans les données : il peut exister des étiquettes dans la base de connaissances qui apparaissent très rarement dans le corpus parce que le sens est rare en anglais moderne ; et inversement, il peut exister des étiquettes vraies qui n'existent pas dans notre base de connaissances. Notre objectif est d'obtenir un classificateur qui fonctionne aussi bien que possible sur des exemples de chaque "classe commune" qui se produit avec une fréquence supérieure à un seuil donné dans l'ensemble non étiqueté, tout en annotant aussi peu d'exemples que possible de "classes rares" dont les étiquettes se produisent avec moins de cette fréquence. Le problème est que nous ne savons pas quelles étiquettes sont communes et lesquelles sont rares, et que la distribution réelle des étiquettes peut présenter une asymétrie extrême. Nous décrivons une approche d'apprentissage actif qui (1) recherche explicitement les classes rares en exploitant les espaces d'intégration contextuelle fournis par les modèles de langage modernes, et (2) intègre une règle d'arrêt qui ignore les classes une fois que nous avons prouvé qu'elles se produisent en dessous de notre seuil cible avec une forte probabilité. Nous prouvons que notre algorithme ne coûte que logarithmiquement plus cher qu'une approche hypothétique qui connaît toutes les fréquences réelles des étiquettes et nous montrons expérimentalement que l'incorporation de la recherche automatisée peut réduire considérablement le nombre d'échantillons nécessaires pour atteindre les niveaux de précision visés.
ImpatientCapsAndRuns : Configuration approximativement optimale des algorithmes à partir d'une réserve infinie
- Gellert Weisz, András György, Wei-I Lin, Devon Graham, Kevin Leyton-Brown, Csaba Szepesvári & Brendan Lucier
Session de posters: 10 décembre (10 h - 12 h MST)
Les procédures de configuration d'algorithmes optimisent les paramètres d'un algorithme donné pour qu'il soit performant sur une distribution d'entrées. Les travaux théoriques récents se sont concentrés sur le cas de la sélection entre un petit nombre d'alternatives. En pratique, les espaces de paramètres sont souvent très grands ou infinis, et donc les procédures heuristiques réussies rejettent les paramètres "impatiemment", sur la base de très peu d'observations. Inspirés par cette idée, nous introduisons ImpatientCapsAndRuns, qui écarte rapidement les configurations les moins prometteuses, accélérant de manière significative la procédure de recherche par rapport aux algorithmes précédents avec des garanties théoriques, tout en obtenant un temps d'exécution optimal jusqu'à des facteurs logarithmiques sous des hypothèses douces. Les résultats expérimentaux démontrent une amélioration pratique.
Apprentissage de modèles discrets basés sur l'énergie via l'exploration locale de variables auxiliaires
- Hanjun Dai, Rishabh Singh, Bo Dai, Charles Sutton, Dale Schuurmans
Session de posters: 8 décembre (22 h - 12 h MST)
Les structures discrètes jouent un rôle important dans des applications telles que la modélisation des langages de programmes et le génie logiciel. Les approches actuelles pour prédire les structures complexes considèrent généralement les modèles autorégressifs pour leur tractabilité, avec un certain sacrifice en termes de flexibilité.
Les modèles basés sur l'énergie (EBM), quant à eux, offrent une approche plus flexible et donc plus puissante pour modéliser de telles distributions, mais nécessitent une estimation de la fonction de partition. Dans cet article, nous proposons \modelshort, un nouvel algorithme d'apprentissage des EBM conditionnels et inconditionnels pour les données structurées discrètes, où les gradients des paramètres sont estimés à l'aide d'un échantillonneur appris qui imite la recherche locale. Nous montrons que la fonction d'énergie et l'échantillonneur peuvent être entraînés efficacement par une nouvelle forme variationnelle d'itération de puissance, ce qui permet d'obtenir un meilleur compromis entre flexibilité et tractabilité. Nous montrons expérimentalement que l'apprentissage de la recherche locale conduit à des améliorations significatives dans des domaines d'application difficiles. Plus particulièrement, nous présentons un fuzzer guidé par un modèle énergétique pour le test de logiciels qui atteint des performances comparables à celles de moteurs de fuzzing bien conçus comme libfuzzer.
Utilité marginale pour la planification dans des espaces d'action continus ou discrets de grande taille
- Zaheen Ahmad, Levi Lelis & Michael Bowling
Session de posters: 8 décembre (22 h - 12 h MST)
La planification par échantillonnage est une famille puissante d'algorithmes permettant de générer un comportement intelligent à partir d'un modèle de l'environnement. La génération de bonnes actions candidates est essentielle au succès des planificateurs basés sur des échantillons, en particulier dans les espaces d'action continus ou vastes. Généralement, la génération d'actions candidates épuise l'espace d'action, utilise la connaissance du domaine ou, plus récemment, implique l'apprentissage d'une politique stochastique pour fournir une telle orientation de recherche. Dans cet article, nous explorons l'apprentissage explicite d'un générateur d'actions candidates en optimisant un nouvel objectif, l'utilité marginale. L'utilité marginale d'un générateur d'actions mesure l'augmentation de la valeur d'une action par rapport aux actions précédemment générées. Nous validons notre approche à la fois dans le curling, un domaine stochastique difficile avec des espaces d'état et d'action continus, et dans un jeu de localisation avec un espace d'action discret mais large. Nous montrons qu'un générateur entraîné avec l'objectif d'utilité marginale surpasse les schémas codés à la main construits sur une connaissance substantielle du domaine, des politiques stochastiques entraînées et d'autres objectifs naturels pour générer des actions pour les planificateurs basés sur l'échantillonnage.
Sélection de modèles dans les problèmes de bandits stochastiques contextuels
- Aldo Pacchiano, My Phan, Yasin Abbasi Yadkori, Anup Rao, Julian Zimmert, Tor Lattimore & Csaba Szepesvári
Poster Session: December 10 (10 a.m. - 12 p.m. MST)
We study bandit model selection in stochastic environments. Our approach relies on a master algorithm that selects between candidate base algorithms. We develop a master-base algorithm abstraction that can work with general classes of base algorithms and different type of adversarial master algorithms. Our methods rely on a novel and generic smoothing transformation for bandit algorithms that permits us to obtain optimal O(√T) model selection guarantees for stochastic contextual bandit problems as long as the optimal base algorithm satisfies a high probability regret guarantee. We show through a lower bound that even when one of the base algorithms has O(logT) regret, in general it is impossible to get better than Ω(√T) regret in model selection, even asymptotically. Using our techniques, we address model selection in a variety of problems such as misspecified linear contextual bandits \citep{lattimore2019learning}, linear bandit with unknown dimension \citep{Foster-Krishnamurthy-Luo-2019} and reinforcement learning with unknown feature maps. Our algorithm requires the knowledge of the optimal base regret to adjust the master learning rate. We show that without such prior knowledge any master can suffer a regret larger than the optimal base regret.
MultiON : évaluation de la mémoire des cartes sémantiques à l'aide de la navigation multi-objets
- Saim Wani, Shivansh Patel, Unnat Jain, Angel Chang et Manolis Savva
Session de posters: 8 décembre (10 h - 12 h MST)
Les tâches de navigation dans des environnements 3D photoréalistes sont difficiles car elles nécessitent une perception et une planification efficace dans des conditions d'observabilité partielle. Des travaux récents montrent que la mémoire de type carte est utile pour les tâches de navigation à long horizon. Cependant, une étude ciblée de l'impact des cartes sur des tâches de navigation de complexité variable n'a pas encore été réalisée.
Nous proposons la tâche multiON, qui nécessite la navigation vers une séquence d'objets spécifiques à un épisode dans un environnement réaliste. MultiON généralise la tâche de navigation ObjectGoal et teste explicitement la capacité des agents de navigation à localiser les objets cibles observés précédemment. Nous réalisons un ensemble d'expériences multiON pour examiner la performance d'une variété de modèles d'agents à travers un spectre de complexité de la tâche de navigation. Nos expériences montrent que : i) la performance de navigation se dégrade considérablement avec l'augmentation de la complexité de la tâche ; ii) un agent de carte sémantique simple a une performance étonnamment bonne par rapport aux agents de carte de caractéristiques d'images neurales plus complexes ; et iii) même les agents de carte oracle ont une performance relativement faible, ce qui indique le potentiel de travaux futurs dans la formation d'agents de navigation incarnés utilisant des cartes.
Évaluation hors politique via le Lagrangien régularisé
- Mengjiao Yang, Ofir Nachum, Bo Dai, Lihong Li&. Dale Schuurmans
Séance de posters: 7 décembre (22 h - 12 h MST)
La famille d'estimateurs de correction de distribution (DICE) récemment proposée a fait progresser l'état de l'art en matière d'évaluation hors politique à partir de données diagnostiques du comportement. Bien que ces estimateurs effectuent tous une forme de correction de distribution stationnaire, ils sont issus de dérivations et de fonctions objectives différentes. Dans cet article, nous unifions ces estimateurs en tant que Lagrangiens régularisés du même programme linéaire. Cette unification nous permet d'élargir l'espace des estimateurs DICE à de nouvelles alternatives qui démontrent une meilleure performance. Plus important encore, en analysant l'espace élargi des estimateurs à la fois mathématiquement et empiriquement, nous constatons que les solutions duales offrent une plus grande flexibilité pour naviguer dans le compromis entre la stabilité de l'optimisation et le biais d'estimation, et fournissent généralement des estimations supérieures dans la pratique.
Algorithme en ligne pour la sélection séquentielle non supervisée avec information contextuelle
- Arun Verma, Manjesh Kumar Hanawal, Csaba Szepesvári & Venkatesh Saligrama
Session de posters: 8 décembre (10 h - 12 h MST)
Dans cet article, nous étudions la sélection séquentielle contextuelle non supervisée (USS), une nouvelle variante du problème des bandits contextuels stochastiques où la perte d'un bras ne peut pas être déduite du feedback observé. Dans notre configuration, les bras sont associés à des coûts fixes et sont ordonnés, formant une cascade. A chaque tour, un contexte est présenté, et l'apprenant sélectionne les bras séquentiellement jusqu'à une certaine profondeur. Le coût total encouru en s'arrêtant à un bras est la somme des coûts fixes des bras sélectionnés et de la perte stochastique associée à ce bras. L'objectif de l'apprenant est d'apprendre une règle de décision qui associe les contextes aux bras dans le but de minimiser la perte totale attendue. Le problème est difficile car nous sommes confrontés à un cadre non supervisé et la perte totale ne peut être estimée. Il est clair que l'apprentissage n'est possible que si le bras optimal peut être déduit (explicitement ou implicitement) de la structure du problème. Nous observons que l'apprentissage est toujours possible lorsque l'instance du problème satisfait à la propriété dite de " faible dominance contextuelle " (CWD). Sous la propriété CWD, nous proposons un algorithme pour le problème USS contextuel et démontrons qu'il a un regret sub-linéaire. Des expériences sur des ensembles de données synthétiques et réelles valident notre algorithme.
L'analyse PAC-Bayes au-delà des limites habituelles
- Omar Rivasplata, Ilja Kuzborskij, Csaba Szepesvári et John Shawe-Taylor
Session de posters: 8 décembre (10 h - 12 h MST)
Nous nous concentrons sur un modèle d'apprentissage stochastique dans lequel l'apprenant observe un ensemble fini d'exemples d'apprentissage et la sortie du processus d'apprentissage est une distribution dépendante des données sur un espace d'hypothèses. La distribution dépendante des données apprise est ensuite utilisée pour faire des prédictions aléatoires, et le thème de haut niveau abordé ici est la garantie de la qualité des prédictions sur des exemples qui n'ont pas été vus pendant la formation, c'est-à-dire la généralisation. Dans ce contexte, la quantité inconnue d'intérêt est le risque attendu du prédicteur aléatoire dépendant des données, pour lequel des limites supérieures peuvent être dérivées via une analyse PAC-Bayes, conduisant à des limites PAC-Bayes.
Plus précisément, nous présentons une inégalité PAC-Bayes de base pour les noyaux stochastiques, à partir de laquelle on peut dériver des extensions de diverses limites PAC-Bayes connues ainsi que de nouvelles limites. Nous clarifions le rôle des exigences de prieurs fixes "sans données", de pertes limitées et de données i.i.d.. Nous soulignons que ces exigences ont été utilisées pour établir une limite supérieure d'un terme de moment exponentiel, alors que le théorème de base de PAC-Bayes reste valide sans ces restrictions. Nous présentons trois limites qui illustrent l'utilisation de prieurs dépendant des données, dont une pour la perte carrée non bornée.
Limites de regret sans continuité de Lipschitz : Apprentissage en ligne avec des pertes relatives de Lipschitz.
- Yihan Zhou, Victor Sanches Portella, Mark SchmidtNicholas Harvey
Session de posters: 10 décembre (10 h - 12 h MST)
Dans l'optimisation convexe en ligne (OCO), la continuité Lipschitz des fonctions est généralement supposée afin d'obtenir un regret sous-linéaire. De plus, de nombreux algorithmes n'ont qu'un regret logarithmique lorsque ces fonctions sont également fortement convexes. Récemment, des chercheurs en optimisation convexe ont proposé les notions de "continuité relative de Lipschitz" et de "forte convexité relative". Ces deux notions sont des généralisations de leurs homologues classiques. Il a été démontré que les méthodes de sous-gradient dans le cadre relatif ont des performances analogues à leurs performances dans le cadre classique.
Dans ce travail, nous considérons l'OCO pour les fonctions relatives de Lipschitz et les fonctions relatives fortement convexes. Nous étendons les limites de regret connues pour les algorithmes OCO classiques au cadre relatif. Plus précisément, nous montrons des limites de regret pour les algorithmes de suivi du leader régularisé et une variante de descente miroir en ligne. En raison de la généralité de ces méthodes, ces résultats donnent des limites de regret pour une grande variété d'algorithmes OCO. De plus, nous étendons les résultats aux algorithmes avec une régularisation supplémentaire, comme la moyenne double régularisée.
Apprentissage par transfert d'espace partagé pour l'analyse de données IRMf multi-sites
- Muhammad YousefnezhadAlessandro Selvitella, Daoqiang Zhang, Andrew Greenshaw&. Russell Greiner
Séance de posters: 10 décembre (10 h - 12 h HNR)
L'analyse des motifs multivoxels (MVPA) permet d'apprendre des modèles prédictifs à partir de données d'imagerie par résonance magnétique fonctionnelle (IRMf) basées sur la tâche, afin de distinguer le moment où les sujets effectuent différentes tâches cognitives, par exemple regarder des films ou prendre des décisions. MVPA fonctionne mieux avec un ensemble de caractéristiques bien conçues et un échantillon de taille adéquate. Cependant, la plupart des ensembles de données d'IRMf sont bruyants, hautement dimensionnels, coûteux à collecter et les échantillons sont de petite taille. En outre, la formation d'un modèle prédictif généralisé et robuste capable d'analyser des tâches cognitives homogènes fournies par des ensembles de données d'IRMf multisites présente des difficultés supplémentaires. Cet article propose l'apprentissage de transfert dans l'espace partagé (SSTL) comme une nouvelle approche d'apprentissage de transfert (TL) qui peut aligner fonctionnellement des ensembles de données IRMf multi-sites homogènes, et ainsi améliorer la performance de prédiction dans chaque site. SSTL extrait d'abord un ensemble de caractéristiques communes à tous les sujets de chaque site. Il utilise ensuite la TL pour mettre en correspondance ces caractéristiques spécifiques au site avec un espace partagé indépendant du site afin d'améliorer les performances de la MVPA. SSTL utilise une procédure d'optimisation évolutive qui fonctionne efficacement pour les ensembles de données d'IRMf à haute dimension. La procédure d'optimisation extrait les caractéristiques communes pour chaque site en utilisant un algorithme à une seule itération et fait correspondre ces caractéristiques communes spécifiques au site à l'espace partagé indépendant du site. Nous évaluons l'efficacité de la méthode proposée pour le transfert entre diverses tâches cognitives. Nos expériences complètes valident que SSTL atteint des performances supérieures à d'autres techniques d'analyse de pointe.
Vers une amélioration sûre des politiques pour les PDM non stationnaires
- Yash Chandak, Scott Jordan, Georgios Theocharous, Martha White et Philip S. Thomas
Présentation des projecteurs: 9 décembre (9 h - 9 h 10 MST)
Session de posters: 9 décembre (10 h - 12 h MST)
De nombreux problèmes de prise de décision séquentielle dans le monde réel concernent des systèmes critiques comportant des risques financiers et des risques pour la vie humaine. Bien que plusieurs travaux dans le passé aient proposé des méthodes qui sont sûres pour le déploiement, ils supposent que le problème sous-jacent est stationnaire. Cependant, de nombreux problèmes d'intérêt dans le monde réel présentent une non-stationnarité, et lorsque les enjeux sont élevés, le coût associé à une fausse hypothèse de stationnarité peut être inacceptable. Nous prenons les premières mesures pour assurer la sécurité, avec une confiance élevée, pour les problèmes de décision non stationnaires à variation régulière. La méthode que nous proposons étend un type d'algorithme sûr, appelé algorithme seldonien, par une synthèse de l'apprentissage par renforcement sans modèle avec l'analyse des séries temporelles. La sécurité est assurée par des tests d'hypothèse séquentiels de la performance prévue d'une politique, et les intervalles de confiance sont obtenus par bootstrap sauvage.
Génération de texte non supervisée par apprentissage à partir de la recherche
- Jingjing Li, Zichao Li, Lili MouXin Jiang, Michael Lyu et Irwin King
Session de posters: 9 décembre (10 h - 12 h MST)
Dans ce travail, nous proposons TGLS, un nouveau cadre pour la génération de texte non supervisée par apprentissage à partir de la recherche. Nous commençons par appliquer un algorithme de recherche fort (en particulier, le recuit simulé) vers un objectif défini heuristiquement qui estime (approximativement) la qualité des phrases. Ensuite, un modèle génératif conditionnel apprend à partir des résultats de la recherche, et pendant ce temps, lisse le bruit de la recherche. L'alternance entre la recherche et l'apprentissage peut être répétée pour amorcer la performance. Nous démontrons l'efficacité de TGLS sur deux tâches de génération de langage naturel du monde réel, la paraphrase non supervisée et la formalisation de texte. Notre modèle surpasse significativement les méthodes de base non supervisées dans les deux tâches. En particulier, il atteint des performances comparables aux méthodes supervisées fortes pour la génération de paraphrases.
Méthode de gradient de politique variationnelle pour l'apprentissage par renforcement avec des utilités générales
- Junyu Zhang, Alec Koppel, Amrit Singh Bedi, Csaba Szepesvári & Mengdi Wang
Spotlight Presentation: December 8 (9:10 - 9:20 a.m. MST)
Poster Session: December 8 (10 a.m. - 12 p.m. MST)
In recent years, reinforcement learning systems with general goals beyond a cumulative sum of rewards have gained traction, such as in constrained problems, exploration, and acting upon prior experiences. In this paper, we consider policy optimization in Markov Decision Problems, where the objective is a general utility function of the state-action occupancy measure, which subsumes several of the aforementioned examples as special cases. Such generality invalidates the Bellman equation. As this means that dynamic programming no longer works, we focus on direct policy search. Analogously to the Policy Gradient Theorem \cite{sutton2000policy} available for RL with cumulative rewards, we derive a new Variational Policy Gradient Theorem for RL with general utilities, which establishes that the gradient may be obtained as the solution of a stochastic saddle point problem involving the Fenchel dual of the utility function. We develop a variational Monte Carlo gradient estimation algorithm to compute the policy gradient based on sample paths. Further, we prove that the variational policy gradient scheme converges globally to the optimal policy for the general objective, and we also establish its rate of convergence that matches or improves the convergence rate available in the case of RL with cumulative rewards.
Ateliers
Organisateurs :
- OPT2020 : Optimisation pour l'apprentissage automatique: L'optimisation est au cœur de nombreux algorithmes d'apprentissage automatique et suscite un grand intérêt dans la communauté. Cette relation intime entre l'optimisation et l'apprentissage automatique est la motivation principale de la série d'ateliers OPT, co-organisée par la Chaire d'IA du Canada à Amii Mark Schmidt.
- Optimisation des politiques dans l'apprentissage par renforcementCette conférence est co-organisée par Sham Kakade, Martha White (boursière Amii et titulaire de la chaire d'IA du CIFAR au Canada) et Nicolas Le Roux, avec l'aide d'Alan Chan, ancien élève d'Amii, et des chercheurs d'Amii Shivan Garg, Dhawal Gupta et Abhishek Naik.
Les orateurs :
- Parler à des inconnus : Zero-Shot Emergent Communication: La communication est l'une des capacités humaines les plus impressionnantes, mais elle a historiquement été étudiée en ML principalement sur des ensembles de données confinés de langage naturel. Grâce à la RL profonde, la communication émergente peut maintenant être étudiée dans des scénarios multi-agents complexes. Cet atelier comprend un exposé de Michael Bowling, boursier Amii, intitulé "Hindsight Rationality : Alternatives to Nash", qui explore certains des principes souvent non déclarés, communs à la recherche sur l'apprentissage multi-agent, qui peuvent entraver le progrès, et suggère un ensemble de principes alternatifs.
- NewInML : Un atelier pour les nouveaux venus dans le domaine de l'apprentissage automatique: C'est la première fois que vous soumettez votre travail à une conférence de haut niveau ? Avez-vous déjà voulu que votre travail soit reconnu par une communauté importante et active ? Alors l'atelier NewInML est fait pour vous ! Michael Bowling, boursier Amii, participera à une table ronde aux côtés d'autres examinateurs et chercheurs de haut niveau de NeurIPS.
Publications papier :
Les articles suivants, rédigés par des chercheurs d'Amii, ont été acceptés dans des ateliers (veuillez consulter les sites individuels pour connaître les heures de présentation) :
- ZORB : un algorithme de rétropropagation sans dérivation pour les réseaux neuronaux par Varun Ranganathan et Alex Lewandowski à Beyond BackPropagation : Novel Ideas for Training Neural Architectures (en anglais)
- Investigating Coagent Networks for Supervised Learning par Dhawal Gupta, Matthew Schlegel, James Kostas, Gabor Mihucz & Martha White à Beyond BackPropagation : Nouvelles idées pour la formation d'architectures neuronales
- L'interaction entre la recherche et la descente de gradient dans les problèmes d'apprentissage semi-stationnaire par Shibhansh Dohare, Rupam Mahmood & Richard Sutton à Beyond BackPropagation : Nouvelles idées pour la formation d'architectures neuronales
- Attribution de crédits pour le réseau de rétrospection par Kenny Young à Beyond BackPropagation : Nouvelles idées pour la formation d'architectures neuronales
- Problèmes de prédiction inspirés de l'apprentissage animal par Banafsheh Rafiee, Sina Ghiassian, Richard Sutton, Elliot A Ludvig et Adam White à l'atelier sur l'apprentissage par renforcement biologique et artificiel.
- Optimisation de la politique de descente en miroir par Manan Tomar, Lior Shani, Yonathan Efroni, Mohammad Ghavamzadeh à l'atelier Deep Reinforcement Learning.
- Formulation de la récompense maximale dans l'apprentissage par renforcement par Sai Krishna Gottipati, Yashaswi Pathak, Rohan Nuttall, Sahir, Raviteja Chunduru, Ahmed Touati, Sriram Ganapathi Subramanian, Matthew E. Taylor, Sarath Chandar à l'atelier Deep Reinforcement Learning
- Variational Auto-Encoder Architectures that Excel (en anglais) par Negar Hassanpour et Russell Greiner à l'atelier Causal Discovery & Causality-Inspired Machine Learning (en anglais)
- Rendre les hyperparamètres de l'optimisation de la politique proximale robustes à la discrétisation temporelle , par Homayoon Farrahi et Rupam Mahmood à l'atelier sur l'apprentissage des robots.
Tutoriels
En outre, Martha White, boursière d'Amii et titulaire de la chaire d'IA de l'ICAR au Canada, coprésentera les tutoriels suivants :
Optimisation des politiques dans l'apprentissage par renforcement
- Sham M Kakade, Martha White & Nicolas Le Roux
- 7 décembre (12 h - 14 h 30 MST)
Questions et réponses du tutoriel
- Sham M Kakade, Martha White & Nicolas Le Roux
- 10 décembre (14 h - 14 h 50 HNR)
Examen de
Les chercheurs de l'Amii ont également été récompensés pour avoir figuré parmi les 10 % d'évaluateurs les mieux notés de NeurIPS cette année ! Félicitations à Dustin Morrill, Sina Ghiassian, Alex Kearney, Eric Graves, Kris De Asis, Alan Chan, ancien élève de l'Amii, Russ Greiner, membre de l'Amii, et Angel Chang, titulaire de la chaire CIFAR d'IA à l'Amii.
Les boursiers Amii Csaba Szepesvári et Dale Schuurmans ont également été membres du Senior Area Chair (SAC) ; seuls 63 chercheurs ont été choisis pour cet honneur. Les membres du SAC ont supervisé le travail des présidents de zone et ont veillé au bon déroulement du processus d'évaluation.
Découvrez comment Amii fait progresser la recherche de pointe en matière d'intelligence artificielle et d'apprentissage automatique : visitez notre page Recherche.