Amii est fier de partager les travaux de ses chercheurs qui seront présentés à la trente-cinquième conférence annuelle NeurIPS (Neural Information Processing Systems ), qui se tiendra en ligne du 6 au 14 décembre 2021.
Lancée en 1987, NeurIPS est devenue une conférence de premier plan sur l'apprentissage automatique et les neurosciences cognitives. Chaque année, elle attire des chercheurs de nombreuses disciplines différentes, dont la théorie de l'information, la vision par ordinateur et la linguistique.
Cette année, 15 articles rédigés conjointement par des boursiers Amii, des titulaires de chaires d'IA du CIFAR et des chercheurs en début de carrière ont été acceptés à NeurIPS, en plus des ateliers et des présentations orales. Les travaux présentés par les chercheurs Amii vont du rôle de l'optimisation dans le phénomène de la double descente à la régulation de la désinformation dans les médias sociaux, en passant par des approches de l'utilisation de tests basés sur des noyaux avec des données limitées.
Vous vous demandez comment une expertise en recherche avancée peut soutenir les objectifs d'adoption de l'IA de votre entreprise ? Consultez notre page Solutions industrielles pour découvrir comment Amii peut vous aider.
Articles acceptés
Apprentissage et planification de la récompense moyenne avec options
Yi Wan - Abhishek Naik - Richard S. Sutton
Résumé : Nous étendons le cadre des options pour l'abstraction temporelle dans l'apprentissage par renforcement des processus de décision de Markov (PDM) actualisés aux PDM à récompense moyenne. Nos contributions comprennent des algorithmes généraux convergents d'apprentissage inter-options hors politique, des algorithmes intra-options pour l'apprentissage de valeurs et de modèles, ainsi que des variantes de planification basées sur l'échantillonnage de nos algorithmes d'apprentissage. Nos algorithmes et nos preuves de convergence prolongent ceux récemment développés par Wan, Naik et Sutton. Nous étendons également la notion de comportement d'interruption de l'option de la formulation actualisée à la formulation de la récompense moyenne. Nous démontrons l'efficacité des algorithmes proposés à l'aide d'expériences sur une version continue du domaine des quatre pièces.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26168
Habitat 2.0 : Former des assistants à domicile pour réorganiser leur habitat
Andrew Szot - Alexander Clegg - Eric Undersander - Erik Wijmans - Yili Zhao - John Turner - Noah Maestre - Mustafa Mukadam - Devendra Singh Chaplot - Oleksandr Maksymets - Aaron Gokaslan - Vladimír Vondruš - Sameer Dharur - Franziska Meier - Wojciech Galuba - Angel Chang - Zsolt Kira - Vladlen Koltun - Jitendra Malik - Manolis Savva - Dhruv Batra
Résumé : Nous présentons Habitat 2.0 (H2.0), une plateforme de simulation pour l'entraînement de robots virtuels dans des environnements 3D interactifs et des scénarios complexes basés sur la physique. Nous apportons des contributions complètes à tous les niveaux de la pile de l'IA incarnée - données, simulation et tâches de référence. Plus précisément, nous présentons : (i) ReplicaCAD : un ensemble de données 3D reconfigurables, annotées et rédigées par des artistes, d'appartements (correspondant à des espaces réels) avec des objets articulés (par exemple, des armoires et des tiroirs qui peuvent s'ouvrir/se fermer) ; (ii) H2.0 : un simulateur 3D à haute performance basé sur la physique avec des vitesses dépassant 25 000 pas de simulation par seconde (850x temps réel) sur un nœud 8-GPU, représentant des accélérations de 100x par rapport aux travaux antérieurs ; et, (iii) Home Assistant Benchmark (HAB) : une suite de tâches communes pour les robots d'assistance (ranger la maison, faire les courses, mettre la table) qui testent une gamme de capacités de manipulation mobile. Ces contributions techniques à grande échelle nous permettent de comparer systématiquement l'apprentissage par renforcement profond (RL) à grande échelle et les pipelines classiques sense-plan-act (SPA) dans des tâches structurées à long terme, avec une finalité de généralisation à de nouveaux objets, réceptacles et agencements. Nous constatons que (1) les politiques d'apprentissage par renforcement à plat ont des difficultés sur HAB par rapport aux politiques hiérarchiques ; (2) une hiérarchie avec des compétences indépendantes souffre de "problèmes de transfert", et (3) les pipelines SPA sont plus fragiles que les politiques d'apprentissage par renforcement à l'échelle.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26376
Comprendre l'effet de la stochasticité dans l'optimisation des politiques
Jincheng Mei - Bo Dai - Chenjun Xiao - Csaba Szepesvári - Dale Schuurmans
Résumé : Nous étudions l'effet de la stochasticité dans l'optimisation des politiques en cours et apportons les quatre contributions suivantes. Premièrement, nous montrons que la préférence des méthodes d'optimisation dépend fortement de l'utilisation de gradients stochastiques par rapport à des gradients exacts. En particulier, contrairement au cas du gradient exact, les informations géométriques ne peuvent pas être facilement exploitées dans le cas stochastique pour accélérer l'optimisation des politiques sans conséquences préjudiciables ou hypothèses irréalisables. Deuxièmement, pour expliquer ces résultats, nous introduisons le concept de taux d'engagement pour l'optimisation stochastique des politiques et montrons qu'il peut servir de critère pour déterminer la convergence presque sûre vers l'optimalité globale. Troisièmement, nous montrons qu'en l'absence d'informations oracle externes, qui permettent à un algorithme de déterminer la différence entre les actions optimales et sous-optimales à partir d'échantillons de politique, il existe un compromis inhérent entre l'exploitation de la géométrie pour accélérer la convergence et l'obtention presque certaine de l'optimalité. En d'autres termes, un algorithme non informé soit converge vers une politique globalement optimale avec une probabilité de 1 mais à un taux qui ne dépasse pas O(1/t), soit atteint une convergence plus rapide que O(1/t) mais ne parvient pas à converger vers la politique globalement optimale avec une certaine probabilité positive. Enfin, nous utilisons la théorie du taux d'engagement pour expliquer pourquoi les méthodes pratiques d'optimisation des politiques sont sensibles à l'initialisation aléatoire, puis nous développons une méthode d'ensemble qui peut être garantie pour atteindre des solutions quasi-optimales avec une probabilité élevée.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26273
Combiner : Transformateur d'attention complète avec un coût de calcul peu élevé
Hongyu Ren - Hanjun Dai - Zihang Dai - Mengjiao Yang - Jure Leskovec - Dale Schuurmans - Bo Dai
Résumé : Les transformateurs constituent une classe d'architectures expressives extrêmement efficaces pour la modélisation de séquences. Cependant, la principale limitation des transformateurs est leur mémoire quadratique et leur complexité temporelle O(L2) par rapport à la longueur de la séquence dans les couches d'attention, ce qui limite l'application à des séquences extrêmement longues. La plupart des approches existantes s'appuient sur des hypothèses de rareté ou de faible rang dans la matrice d'attention pour réduire le coût, mais sacrifient l'expressivité. Au lieu de cela, nous proposons Combiner, qui fournit une capacité d'attention complète dans chaque tête d'attention tout en maintenant une faible complexité de calcul et de mémoire. L'idée principale est de traiter le mécanisme d'auto-attention comme une espérance conditionnelle sur les encastrements à chaque emplacement, et d'approximer la distribution conditionnelle avec une factorisation structurée. Chaque emplacement peut s'intéresser à tous les autres emplacements, soit par une attention directe, soit par une attention indirecte à des abstractions, qui sont à nouveau des attentes conditionnelles d'encastrements de régions locales correspondantes. Nous montrons que la plupart des modèles d'attention éparse utilisés dans les transformateurs épars existants peuvent inspirer la conception d'une telle factorisation pour l'attention totale, ce qui entraîne le même coût sous-quadratique (O(Llog(L)) ou O(LL)). Combiner est un remplacement direct des couches d'attention dans les transformateurs existants et peut être facilement mis en œuvre dans des cadres communs. Une évaluation expérimentale sur des tâches de séquences autorégressives et bidirectionnelles démontre l'efficacité de cette approche, donnant des résultats de pointe sur plusieurs tâches de modélisation d'images et de textes.
https://neurips.cc/Conferences/2021/Schedule?showEvent=27023
Test méta à deux échantillons : Des noyaux d'apprentissage pour des tests avec des données limitées
Feng Liu - Wenkai Xu - Jie Lu - Danica Sutherland
Résumé : Les tests modernes à deux échantillons basés sur des noyaux ont connu un grand succès dans la distinction de distributions complexes à haute dimension par l'apprentissage de noyaux appropriés (ou, dans un cas particulier, de classificateurs). Les travaux antérieurs supposaient toutefois que de nombreux échantillons étaient observés dans les deux distributions à distinguer. Dans des scénarios réalistes avec un nombre très limité d'échantillons de données, il peut être difficile d'identifier un noyau suffisamment puissant pour distinguer des distributions complexes. Nous abordons cette question en introduisant le problème du méta-test à deux échantillons (M2ST), qui vise à exploiter des données auxiliaires (abondantes) sur des tâches connexes pour trouver un algorithme capable d'identifier rapidement un test puissant sur de nouvelles tâches cibles. Nous proposons deux algorithmes spécifiques pour cette tâche : un schéma générique qui s'améliore par rapport aux lignes de base, et une approche plus personnalisée qui est encore plus performante. Nous fournissons à la fois une justification théorique et des preuves empiriques que nos schémas de méta-tests proposés sont plus performants que l'apprentissage de tests basés sur des noyaux directement à partir d'observations rares, et nous identifions les cas où de tels schémas seront efficaces.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26743
Apprentissage auto-supervisé avec maximisation de la dépendance du noyau
Yazhe Li - Roman Pogodin - Danica Sutherland - Arthur Gretton
Résumé : Nous abordons l'apprentissage auto-supervisé des représentations d'images sous l'angle de la dépendance statistique, en proposant l'apprentissage auto-supervisé avec le critère d'indépendance de Hilbert-Schmidt (SSL-HSIC). SSL-HSIC maximise la dépendance entre les représentations des transformations d'une image et l'identité de l'image, tout en minimisant la variance kernélisée de ces représentations. Ce cadre permet une nouvelle compréhension de l'InfoNCE, une limite inférieure variationnelle de l'information mutuelle (IM) entre différentes transformations. Alors que l'information mutuelle elle-même est connue pour avoir des pathologies qui peuvent entraîner l'apprentissage de représentations dépourvues de sens, sa limite se comporte beaucoup mieux : nous montrons qu'elle se rapproche implicitement de SSL-HSIC (avec un régularisateur légèrement différent). Notre approche nous permet également de mieux comprendre BYOL, une méthode SSL sans négatif, puisque SSL-HSIC apprend de la même manière des voisinages locaux d'échantillons. SSL-HSIC nous permet d'optimiser directement la dépendance statistique en un temps linéaire par rapport à la taille du lot, sans hypothèses restrictives sur les données ni estimateurs indirects de l'information mutuelle. Entraîné avec ou sans réseau cible, SSL-HSIC correspond à l'état de l'art actuel pour l'évaluation linéaire standard sur ImageNet, l'apprentissage semi-supervisé et le transfert vers d'autres tâches de classification et de vision telles que la segmentation sémantique, l'estimation de la profondeur et la reconnaissance d'objets.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26689
Frederic Koehler - Lijia Zhou - Danica Sutherland - Nathan Srebro
Résumé : Nous considérons l'apprentissage par interpolation dans la régression linéaire en haute dimension avec des données gaussiennes, et nous prouvons une garantie de convergence uniforme générique sur l'erreur de généralisation des interpolateurs dans une classe d'hypothèses arbitraire en termes de largeur gaussienne de la classe. L'application de la limite générique aux boules de norme euclidienne permet de retrouver le résultat de cohérence de Bartlett et al. (2020) pour les interpolateurs à norme minimale, et confirme une prédiction de Zhou et al. (2020) pour les interpolateurs à norme quasi-minimale dans le cas particulier des données gaussiennes. Nous démontrons la généralité de la borne en l'appliquant au simplexe, en obtenant un nouveau résultat de cohérence pour les interpolateurs ℓ1-normes minimales (poursuite de base). Nos résultats montrent comment les bornes de généralisation basées sur les normes peuvent expliquer et être utilisées pour analyser un surajustement bénin, au moins dans certains contextes.
https://neurips.cc/Conferences/2021/Schedule?showEvent=27997
Sur le rôle de l'optimisation dans la double descente : Une étude des moindres carrés
Ilja Kuzborskij - Csaba Szepesvari - Omar Rivasplata - Amal Rannen-Triki - Razvan Pascanu
Résumé : On a observé empiriquement que les performances des réseaux neuronaux profonds s'améliorent régulièrement à mesure que l'on augmente la taille du modèle, ce qui contredit le point de vue classique sur l'ajustement excessif et la généralisation. Récemment, le phénomène de double descente a été proposé pour réconcilier cette observation avec la théorie, suggérant que l'erreur de test connaît une deuxième descente lorsque le modèle devient suffisamment surparamétré, la taille du modèle agissant elle-même comme un régularisateur implicite. Dans cet article, nous ajoutons au nombre croissant de travaux dans ce domaine, en fournissant une étude minutieuse de la dynamique d'apprentissage en fonction de la taille du modèle pour le scénario des moindres carrés. Nous montrons une limite de risque excédentaire pour la solution de descente du gradient de l'objectif des moindres carrés. Cette limite dépend de la plus petite valeur propre non nulle de la matrice de covariance de l'échantillon des caractéristiques d'entrée, par le biais d'une forme fonctionnelle qui a un comportement de double descente. Cela donne une nouvelle perspective sur les courbes de double descente rapportées dans la littérature, car notre analyse de l'excès de risque permet de découpler l'effet de l'optimisation et de l'erreur de généralisation. En particulier, nous constatons que dans le cas d'une régression sans bruit, la double descente s'explique uniquement par des quantités liées à l'optimisation, ce que les études axées sur la solution pseudo-inverse de Moore-Penrose n'ont pas réussi à mettre en évidence. Nous pensons que notre dérivation fournit un point de vue alternatif par rapport aux travaux existants, en mettant en lumière une cause possible de ce phénomène, au moins dans le cadre des moindres carrés considérés. Nous étudions empiriquement si nos prédictions sont valables pour les réseaux neuronaux, en particulier si le spectre de la covariance d'échantillon des couches cachées intermédiaires a un comportement similaire à celui prédit par nos dérivations.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26732
Junyu Zhang - Chengzhuo Ni - zheng Yu - Csaba Szepesvari - Mengdi Wang
Résumé : Le gradient de politique (PG) donne lieu à une riche classe de méthodes d'apprentissage par renforcement (RL). Récemment, il y a eu une tendance émergente à augmenter les méthodes d'apprentissage par renforcement existantes telles que REINFORCE par des techniques de réduction de la variance. Cependant, toutes les méthodes d'apprentissage par renforcement à variance réduite existantes reposent fortement sur une hypothèse de poids d'importance non vérifiable faite pour chaque itération des algorithmes. Dans cet article, un mécanisme simple de troncature du gradient est proposé pour résoudre ce problème. En outre, nous concevons une méthode TSIVR-PG (Truncated Stochastic Incremental Variance-Reduced Policy Gradient) capable de maximiser non seulement une somme cumulative de récompenses, mais aussi une fonction d'utilité générale sur la distribution des visites à long terme d'une politique. Nous montrons une méthode O~(ϵ-3)
complexité d'échantillon pour TSIVR-PG pour trouver une politique ϵ-stationnaire. En supposant que la politique est surparamétrée et en exploitant la convexité cachée du problème, nous montrons en outre que TSIVR-PG converge vers une politique globale ϵ-optimale avec O~(ϵ-2) échantillons.
https://neurips.cc/Conferences/2021/Schedule?showEvent=28616
Pas de regrets pour avoir appris le Prieur dans Bandits
Soumya Basu - Branislav Kveton - Manzil Zaheer - Csaba Szepesvari
Résumé : Nous proposons AdaTS, un algorithme d'échantillonnage de Thompson qui s'adapte séquentiellement aux tâches de bandits avec lesquelles il interagit. L'idée clé d'AdaTS est de s'adapter à une distribution préalable inconnue de la tâche en maintenant une distribution sur ses paramètres. Lors de la résolution d'une tâche de bandit, cette incertitude est marginalisée et correctement prise en compte. AdaTS est un algorithme entièrement bayésien qui peut être mis en œuvre efficacement dans plusieurs classes de problèmes de bandits. Nous dérivons des bornes supérieures sur son regret de Bayes qui quantifient la perte due au fait de ne pas connaître l'antériorité de la tâche, et nous montrons qu'elle est faible. Notre théorie est étayée par des expériences, où AdaTS surpasse les algorithmes antérieurs et fonctionne bien même dans les problèmes difficiles du monde réel.
https://neurips.cc/Conferences/2021/Schedule?showEvent=27943
Apprentissage continu des tâches auxiliaires
Matthew McLeod - Chunlok Lo - Matthew Schlegel - Andrew Jacobsen - Raksha Kumaraswamy - Martha White - Adam White
Résumé : L'apprentissage de tâches auxiliaires, telles que des prédictions multiples sur le monde, peut apporter de nombreux avantages aux systèmes d'apprentissage par renforcement. Une variété d'algorithmes d'apprentissage hors politique a été développée pour apprendre de telles prédictions, mais jusqu'à présent il y a peu de travail sur la façon d'adapter le comportement pour rassembler des données utiles pour ces prédictions hors politique. Dans ce travail, nous étudions un système d'apprentissage par renforcement conçu pour apprendre une collection de tâches auxiliaires, avec une politique de comportement apprenant à prendre des mesures pour améliorer ces prédictions auxiliaires. Nous mettons en évidence la non-stationnarité inhérente à ce problème d'apprentissage continu des tâches auxiliaires, tant pour les apprenants de la prédiction que pour l'apprenant du comportement. Nous développons un algorithme basé sur les caractéristiques du successeur qui facilite le suivi en cas de récompenses non stationnaires, et nous prouvons que la séparation entre l'apprentissage des caractéristiques du successeur et des récompenses permet d'améliorer le taux de convergence. Nous menons une étude approfondie sur le système d'apprentissage multiprédiction qui en résulte.
https://neurips.cc/Conferences/2021/Schedule?showEvent=26449
Dhawal Gupta - Gabor Mihucz - Matthew Schlegel - James Kostas - Philip Thomas - Martha White
Résumé : L'attribution de crédits structurels dans les réseaux neuronaux est un problème de longue date, avec une variété d'alternatives à la rétropropagation proposées pour permettre l'apprentissage local des nœuds. L'une des premières stratégies consistait à traiter chaque nœud comme un agent et à utiliser une méthode d'apprentissage par renforcement appelée REINFORCE pour mettre à jour chaque nœud localement avec seulement un signal de récompense global. Dans ce travail, nous revisitons cette approche et cherchons à savoir si nous pouvons tirer parti d'autres approches d'apprentissage par renforcement pour améliorer l'apprentissage. Nous commençons par formaliser l'apprentissage d'un réseau neuronal comme un problème d'apprentissage par renforcement à horizon fini et nous examinons comment cela facilite l'utilisation d'idées issues de l'apprentissage par renforcement, comme l'apprentissage hors politique. Nous montrons que l'approche standard de REINFORCE, même avec une variété d'approches de réduction de la variance, apprend des solutions sous-optimales. Nous introduisons une approche hors politique, pour faciliter le raisonnement sur l'action gourmande pour d'autres agents et aider à surmonter la stochasticité dans d'autres agents. Nous concluons en montrant que ces réseaux d'agents peuvent être plus robustes aux échantillons corrélés lorsqu'ils apprennent en ligne.
https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=26501
Ateliers
ECG pour le dépistage à haut débit de plusieurs maladies : Preuve de concept à l'aide de l'apprentissage profond multidiagnostic à partir d'ensembles de données basés sur la population (atelier sur l'imagerie médicale).
Weijie Sun - Sunil Vasu Kalmady - Amir S Salimi - Nariman Sepehrvand - Eric Ly - Abram Hindle - Russell Greiner - Padma Kaul
Résumé : Les anomalies de l'électrocardiogramme (ECG) sont liées aux maladies cardiovasculaires, mais peuvent également survenir dans d'autres conditions non cardiovasculaires telles que les conditions mentales, neurologiques, métaboliques et infectieuses. Cependant, la plupart des succès récents des prédictions diagnostiques basées sur l'apprentissage profond (DL) dans des cohortes de patients sélectionnées ont été limités à un petit ensemble de maladies cardiaques. Dans cette étude, nous utilisons un ensemble de données basé sur la population de >250 000 patients avec >1000 conditions médicales et >2 millions d'ECG pour identifier un large éventail de maladies qui pourraient être diagnostiquées avec précision à partir du premier ECG du patient à l'hôpital. Nos modèles DL ont permis d'identifier 128 maladies et 68 catégories de maladies avec une forte performance discriminante.
Shehroze Khan James R. Wright
Description : La propagation de la désinformation sur les plateformes de médias sociaux est préjudiciable à la société. Ce préjudice peut se manifester par une dégradation progressive du discours public, mais il peut aussi prendre la forme d'événements dramatiques soudains tels que la récente insurrection au Capitole. Les plateformes elles-mêmes sont les mieux placées pour empêcher la propagation de la désinformation, car elles disposent du meilleur accès aux données pertinentes et de l'expertise nécessaire pour les utiliser. Toutefois, l'atténuation de la désinformation est coûteuse, non seulement en raison de la mise en œuvre d'algorithmes de détection ou d'efforts manuels, mais aussi parce que la limitation de ces contenus hautement viraux a une incidence sur l'engagement des utilisateurs et, partant, sur les recettes publicitaires potentielles. Étant donné que les coûts des contenus nuisibles sont supportés par d'autres entités, la plateforme ne sera pas incitée à déployer le niveau d'effort socialement optimal. Ce problème est similaire à celui de la réglementation environnementale, dans laquelle les coûts des événements indésirables ne sont pas directement supportés par une entreprise, l'effort d'atténuation d'une entreprise n'est pas observable et le lien de causalité entre une conséquence néfaste et une défaillance spécifique est difficile à prouver. En ce qui concerne la réglementation environnementale, une solution consiste à effectuer un contrôle coûteux pour s'assurer que l'entreprise prend les précautions adéquates conformément à une règle spécifique. Toutefois, une règle fixe de classification de la désinformation perd de son efficacité avec le temps, car les mauvais acteurs peuvent apprendre à la contourner de manière séquentielle et stratégique. En codant notre domaine comme un processus de décision de Markov, nous démontrons qu'aucune pénalité basée sur une règle statique, quelle que soit son importance, ne peut inciter à un effort adéquat. Les pénalités basées sur une règle adaptative peuvent inciter à un effort optimal, mais de manière contre-intuitive, seulement si le régulateur sur-réagit suffisamment aux événements nuisibles en exigeant un niveau d'effort supérieur à l'effort optimal. Nous prescrivons la conception de mécanismes qui permettent de connaître les coûts de l'effort de précaution des plateformes en ce qui concerne le contrôle de la désinformation.
https://arxiv.org/abs/2106.09847
Apprentissage profond par renforcement
Pieter Abbeel - Chelsea Finn - David Silver - Matthew Taylor - Martha White - Srijita Das - Yuqing Du - Andrew Patterson - Manan Tomar - Olivia Watkins Description : Ces dernières années, l'utilisation de réseaux neuronaux profonds comme approximateurs de fonctions a permis aux chercheurs d'étendre les techniques d'apprentissage par renforcement pour résoudre des tâches de contrôle de plus en plus complexes. Le domaine émergent de l'apprentissage par renforcement profond a conduit à des résultats empiriques remarquables dans des domaines riches et variés tels que la robotique, les jeux de stratégie et les interactions multi-agents. Cet atelier réunira des chercheurs travaillant à l'intersection de l'apprentissage profond et de l'apprentissage par renforcement, et aidera les chercheurs intéressés en dehors du domaine à obtenir une perspective sur l'état actuel de l'art et les directions potentielles pour les contributions futures.
https://neurips.cc/Conferences/2021/Schedule?showEvent=21848
Traitement efficace du langage naturel et de la parole
Mehdi Rezagholizadeh - Lili Mou - Yue Dong - Pascal Poupart - Ali Ghodsi - Qun Liu
Description : Cet atelier vise à présenter certains problèmes fondamentaux dans le domaine du traitement du langage naturel et de la parole qui peuvent être d'intérêt pour la communauté générale de l'apprentissage automatique et de l'apprentissage profond afin d'améliorer l'efficacité des modèles, leur formation et leur inférence. Le programme de l'atelier offre une plateforme interactive pour rassembler des experts et des talents du monde universitaire et de l'industrie à travers différentes conférences invitées, des discussions de groupe, des soumissions et des révisions d'articles, des présentations orales et par affiches et un programme de mentorat. Ce sera l'occasion de discuter et d'apprendre les uns des autres, d'échanger des idées, de nouer des liens et de réfléchir à des solutions potentielles et à de futures collaborations. Les sujets de cet atelier peuvent intéresser les personnes travaillant sur l'apprentissage machine général, l'apprentissage profond, l'optimisation, la théorie et les applications NLP & Speech.
https://neurips.cc/Conferences/2021/Schedule?showEvent=21848
Documents de l'atelier
Évaluation sûre pour l'apprentissage hors ligne : Sommes-nous prêts à déployer ?
Hager Radi- Josiah P. Hanna - Peter Stone - Matthew E. Taylor
Résumé : Le monde offre actuellement une abondance de données dans de multiples domaines, à partir desquelles nous pouvons apprendre des politiques d'apprentissage par renforcement (AR) sans autre interaction avec l'environnement. L'apprentissage hors ligne d'agents RL à partir de ces données est possible, mais leur déploiement pendant l'apprentissage peut être dangereux dans les domaines où la sécurité est essentielle. Il est donc essentiel de trouver un moyen d'estimer les performances d'un agent nouvellement appris s'il est déployé dans l'environnement cible avant de le déployer réellement et sans risquer de surestimer ses performances réelles. Pour y parvenir, nous introduisons un cadre pour l'évaluation sûre de l'apprentissage hors ligne en utilisant l'évaluation approximative à haute confiance hors politique (HCOPE) pour estimer la performance des politiques hors ligne pendant l'apprentissage. Dans notre cadre, nous partons d'une source de données, que nous divisons en un ensemble de formation, pour apprendre une politique hors ligne, et un ensemble de test, pour estimer une limite inférieure sur la politique hors ligne à l'aide d'une évaluation hors politique avec bootstrapping. L'estimation d'une limite inférieure nous indique les performances d'une politique cible nouvellement apprise avant qu'elle ne soit déployée dans l'environnement réel, et nous permet donc de décider quand déployer la politique apprise.
https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=38487
Trouver des prédictions utiles par descente méta-gradiente pour améliorer la prise de décision
Alex Kearney - Anna Koop - Johannes Günther - Patrick M. Pilarski
Résumé : Dans l'apprentissage par renforcement computationnel, un nombre croissant de travaux cherchent à exprimer le modèle du monde d'un agent par des prédictions sur les sensations futures. Dans ce manuscrit, nous nous concentrons sur les prédictions exprimées en tant que Fonctions de Valeur Générales : des estimations temporellement étendues de l'accumulation d'un signal futur. L'un des défis consiste à déterminer, parmi l'infinité de prédictions que l'agent pourrait éventuellement faire, celles qui pourraient soutenir la prise de décision. Dans ce travail, nous proposons une méthode de descente de gradient méta par laquelle un agent peut directement spécifier les prédictions qu'il apprend, indépendamment des instructions du concepteur. À cette fin, nous introduisons un domaine partiellement observable adapté à cette étude. Nous démontrons ensuite qu'en interagissant avec l'environnement, un agent peut sélectionner de manière indépendante des prédictions qui résolvent l'observabilité partielle, ce qui permet d'obtenir des performances similaires à celles de fonctions de valeur choisies par des experts. En apprenant, plutôt qu'en spécifiant manuellement ces prédictions, nous permettons à l'agent d'identifier des prédictions utiles de manière auto-supervisée, ce qui constitue un pas en avant vers des systèmes véritablement autonomes.
Sessions orales
Frederic Koehler - Lijia Zhou - Danica Sutherland - Nathan Srebro
Résumé : Nous considérons l'apprentissage par interpolation dans la régression linéaire en haute dimension avec des données gaussiennes, et nous prouvons une garantie de convergence uniforme générique sur l'erreur de généralisation des interpolateurs dans une classe d'hypothèses arbitraire en termes de largeur gaussienne de la classe. L'application de la limite générique aux boules de norme euclidienne permet de retrouver le résultat de cohérence de Bartlett et al. (2020) pour les interpolateurs à norme minimale, et confirme une prédiction de Zhou et al. (2020) pour les interpolateurs à norme quasi-minimale dans le cas particulier des données gaussiennes. Nous démontrons la généralité de la borne en l'appliquant au simplexe, en obtenant un nouveau résultat de cohérence pour les interpolateurs ℓ1-normes minimales (poursuite de base). Nos résultats montrent comment les bornes de généralisation basées sur les normes peuvent expliquer et être utilisées pour analyser un surajustement bénin, au moins dans certains contextes.
https://neurips.cc/Conferences/2021/Schedule?showEvent=27998
Auteurs
Angel Chang
James Wright
Hager Radi