Nouvelles

Tâches de bandit, apprentissage par renforcement profond et contrôle de la désinformation : Les chercheurs d'Amii à NeurIPS 2021

Amii est fier de partager les travaux de ses chercheurs qui seront présentés à la trente-cinquième conférence annuelle NeurIPS (Neural Information Processing Systems ), qui se tiendra en ligne du 6 au 14 décembre 2021.

Lancée en 1987, NeurIPS est devenue une conférence de premier plan sur l'apprentissage automatique et les neurosciences cognitives. Chaque année, elle attire des chercheurs de nombreuses disciplines différentes, dont la théorie de l'information, la vision par ordinateur et la linguistique.

Cette année, 15 articles rédigés conjointement par des boursiers Amii, des titulaires de chaires d'IA du CIFAR et des chercheurs en début de carrière ont été acceptés à NeurIPS, en plus des ateliers et des présentations orales. Les travaux présentés par les chercheurs Amii vont du rôle de l'optimisation dans le phénomène de la double descente à la régulation de la désinformation dans les médias sociaux, en passant par des approches de l'utilisation de tests basés sur des noyaux avec des données limitées.

Vous vous demandez comment une expertise en recherche avancée peut soutenir les objectifs d'adoption de l'IA de votre entreprise ? Consultez notre page Solutions industrielles pour découvrir comment Amii peut vous aider.

Articles acceptés

Apprentissage et planification de la récompense moyenne avec options

Yi Wan - Abhishek Naik - Richard S. Sutton

Résumé : Nous étendons le cadre des options pour l'abstraction temporelle dans l'apprentissage par renforcement des processus de décision de Markov (PDM) actualisés aux PDM à récompense moyenne. Nos contributions comprennent des algorithmes généraux convergents d'apprentissage inter-options hors politique, des algorithmes intra-options pour l'apprentissage de valeurs et de modèles, ainsi que des variantes de planification basées sur des échantillons de nos algorithmes d'apprentissage. Nos algorithmes et nos preuves de convergence étendent ceux récemment développés par Wan, Naik et Sutton. Nous étendons également la notion de comportement d'interruption de l'option de la formulation avec actualisation à la formulation avec récompense moyenne. Nous démontrons l'efficacité des algorithmes proposés par des expériences sur une version continue du domaine des quatre pièces.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26168

Habitat 2.0 : Former des assistants à domicile pour réorganiser leur habitat

Andrew Szot - Alexander Clegg - Eric Undersander - Erik Wijmans - Yili Zhao - John Turner - Noah Maestre - Mustafa Mukadam - Devendra Singh Chaplot - Oleksandr Maksymets - Aaron Gokaslan - Vladimír Vondruš - Sameer Dharur - Franziska Meier - Wojciech Galuba - Angel Chang - Zsolt Kira - Vladlen Koltun - Jitendra Malik - Manolis Savva - Dhruv Batra

Résumé : Nous présentons Habitat 2.0 (H2.0), une plateforme de simulation pour l'entraînement de robots virtuels dans des environnements 3D interactifs et des scénarios complexes basés sur la physique. Nous apportons des contributions complètes à tous les niveaux de la pile de l'IA incarnée - données, simulation et tâches de référence. Plus précisément, nous présentons : (i) ReplicaCAD : un ensemble de données 3D d'appartements (correspondant à des espaces réels) annotées, reconfigurables et rédigées par des artistes, avec des objets articulés (par exemple, des armoires et des tiroirs qui peuvent s'ouvrir/se fermer) ; (ii) H2.0 : un simulateur 3D haute performance basé sur la physique, dont la vitesse dépasse 25 000 pas de simulation par seconde (850x en temps réel) sur un nœud à 8 GPU, ce qui représente une augmentation de 100x de la vitesse par rapport aux travaux antérieurs ; et (iii) Home Assistant Benchmark (HAB) : une suite de tâches courantes pour les robots d'assistance (ranger la maison, faire les courses, mettre la table) qui testent une série de capacités de copie mobile. Ces contributions techniques à grande échelle nous permettent de comparer systématiquement l'apprentissage par renforcement profond (RL) à l'échelle et les pipelines classiques de type sense-plan-act (SPA) dans des tâches structurées à long horizon, en mettant l'accent sur la généralisation à de nouveaux objets, réceptacles et agencements. Nous constatons que (1) les politiques d'apprentissage par renforcement à plat sont plus difficiles à appliquer dans les HAB que les politiques hiérarchiques ; (2) une hiérarchie avec des compétences indépendantes souffre de "problèmes de transfert", et (3) les pipelines SPA sont plus fragiles que les politiques d'apprentissage par renforcement.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26376

Comprendre l'effet de la stochasticité dans l'optimisation des politiques

Jincheng Mei - Bo Dai - Chenjun Xiao - Csaba Szepesvári - Dale Schuurmans

Résumé : Nous étudions l'effet de la stochasticité dans l'optimisation des politiques on-policy, et apportons les quatre contributions suivantes. Premièrement, nous montrons que la préférence des méthodes d'optimisation dépend de façon critique de l'utilisation de gradients stochastiques ou exacts. En particulier, contrairement au cadre du gradient exact, les informations géométriques ne peuvent pas être facilement exploitées dans le cas stochastique pour accélérer l'optimisation des politiques sans conséquences néfastes ou hypothèses peu pratiques. Deuxièmement, pour expliquer ces résultats, nous introduisons le concept de taux d'engagement pour l'optimisation stochastique des politiques, et nous montrons qu'il peut servir de critère pour déterminer la convergence presque certaine vers l'optimalité globale. Troisièmement, nous montrons qu'en l'absence d'informations d'oracle externes, qui permettent à un algorithme de déterminer la différence entre les actions optimales et sous-optimales à partir d'échantillons de politique, il existe un compromis inhérent entre l'exploitation de la géométrie pour accélérer la convergence et l'obtention presque certaine de l'optimalité. En d'autres termes, un algorithme non informé converge vers une politique globalement optimale avec une probabilité de 1, mais à une vitesse inférieure à O(1/t), ou bien il atteint une convergence plus rapide que O(1/t), mais ne parvient pas à converger vers la politique globalement optimale avec une certaine probabilité positive. Enfin, nous utilisons la théorie du taux d'engagement pour expliquer pourquoi les méthodes pratiques d'optimisation des politiques sont sensibles à l'initialisation aléatoire, puis nous développons une méthode d'ensemble qui peut être garantie pour obtenir des solutions quasi-optimales avec une probabilité élevée.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26273

Combiner : Transformateur d'attention complète avec un coût de calcul peu élevé

Hongyu Ren - Hanjun Dai - Zihang Dai - Mengjiao Yang - Jure Leskovec - Dale Schuurmans - Bo Dai

Résumé : Les transformateurs fournissent une classe d'architectures expressives qui sont extrêmement efficaces pour la modélisation de séquences. Cependant, la principale limitation des transformateurs est leur complexité quadratique en mémoire et en temps O(L2) par rapport à la longueur de la séquence dans les couches d'attention, ce qui limite l'application aux séquences extrêmement longues. La plupart des approches existantes tirent parti de la sparsité ou des hypothèses de faible rang dans la matrice d'attention pour réduire le coût, mais sacrifient l'expressivité. Au lieu de cela, nous proposons Combiner, qui fournit une capacité d'attention complète dans chaque tête d'attention tout en maintenant une faible complexité de calcul et de mémoire. L'idée principale est de traiter le mécanisme d'auto-attention comme une espérance conditionnelle sur les incorporations à chaque emplacement, et d'approximer la distribution conditionnelle avec une factorisation structurée. Chaque emplacement peut prêter attention à tous les autres emplacements, soit par une attention directe, soit par une attention indirecte aux abstractions, qui sont à nouveau des attentes conditionnelles des incorporations des régions locales correspondantes. Nous montrons que la plupart des modèles d'attention clairsemée utilisés dans les transformateurs clairsemés existants sont capables d'inspirer la conception d'une telle factorisation pour l'attention complète, ce qui entraîne le même coût subquadratique (O(Llog(L)) ou O(LL)). Combiner est un remplacement immédiat des couches d'attention dans les transformateurs existants et peut être facilement implémenté dans des cadres communs. Une évaluation expérimentale sur des tâches de séquences autorégressives et bidirectionnelles démontre l'efficacité de cette approche, donnant des résultats de pointe sur plusieurs tâches de modélisation d'images et de textes.

https://neurips.cc/Conferences/2021/Schedule?showEvent=27023

Test méta à deux échantillons : Des noyaux d'apprentissage pour des tests avec des données limitées

Feng Liu - Wenkai Xu - Jie Lu - Danica Sutherland

Résumé : Les tests modernes à deux échantillons basés sur des noyaux ont montré un grand succès dans la distinction de distributions complexes et de haute dimension par l'apprentissage de noyaux appropriés (ou, dans un cas particulier, de classificateurs). Cependant, les travaux précédents supposaient que de nombreux échantillons étaient observés pour les deux distributions à distinguer. Dans des scénarios réalistes avec un nombre très limité d'échantillons de données, il peut être difficile d'identifier un noyau suffisamment puissant pour distinguer des distributions complexes. Nous abordons cette question en introduisant le problème du méta-test à deux échantillons (M2ST), qui vise à exploiter des données auxiliaires (abondantes) sur des tâches connexes pour trouver un algorithme capable d'identifier rapidement un test puissant sur de nouvelles tâches cibles. Nous proposons deux algorithmes spécifiques pour cette tâche : un schéma générique qui s'améliore par rapport à la base, et une approche plus adaptée qui est encore plus performante. Nous fournissons à la fois une justification théorique et des preuves empiriques que les schémas de méta-tests que nous proposons sont plus performants que l'apprentissage de tests basés sur des noyaux directement à partir d'observations rares, et nous identifions quand ces schémas seront efficaces.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26743

Apprentissage auto-supervisé avec maximisation de la dépendance du noyau

Yazhe Li - Roman Pogodin - Danica Sutherland - Arthur Gretton

Résumé : Nous abordons l'apprentissage auto-supervisé des représentations d'images d'un point de vue de la dépendance statistique, en proposant l'apprentissage auto-supervisé avec le critère d'indépendance de Hilbert-Schmidt (SSL-HSIC). Le SSL-HSIC maximise la dépendance entre les représentations des transformations d'une image et l'identité de l'image, tout en minimisant la variance noyautée de ces représentations. Ce cadre permet une nouvelle compréhension de l'InfoNCE, une limite inférieure variationnelle de l'information mutuelle (IM) entre différentes transformations. Alors que l'information mutuelle elle-même est connue pour présenter des pathologies qui peuvent entraîner l'apprentissage de représentations dénuées de sens, sa limite se comporte beaucoup mieux : nous montrons qu'elle se rapproche implicitement de SSL-HSIC (avec un régularisateur légèrement différent). Notre approche nous donne également un aperçu de BYOL, une méthode SSL sans négatif, puisque SSL-HSIC apprend de manière similaire des voisinages locaux d'échantillons. SSL-HSIC nous permet d'optimiser directement la dépendance statistique en un temps linéaire dans la taille du lot, sans hypothèses de données restrictives ou estimateurs indirects d'information mutuelle. Entraîné avec ou sans réseau cible, SSL-HSIC correspond à l'état actuel de l'art pour l'évaluation linéaire standard sur ImageNet, l'apprentissage semi-supervisé et le transfert vers d'autres tâches de classification et de vision telles que la segmentation sémantique, l'estimation de la profondeur et la reconnaissance d'objets.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26689

Convergence uniforme des interpolateurs : Largeur gaussienne, limites de la norme et surajustement bénin

Frederic Koehler - Lijia Zhou - Danica Sutherland - Nathan Srebro

Résumé : Nous considérons l'apprentissage par interpolation dans la régression linéaire à haute dimension avec des données gaussiennes, et prouvons une garantie de convergence uniforme générique sur l'erreur de généralisation des interpolateurs dans une classe d'hypothèses arbitraire en termes de largeur gaussienne de la classe. En appliquant la limite générique aux boules de norme euclidienne, nous retrouvons le résultat de cohérence de Bartlett et al. (2020) pour les interpolateurs à norme minimale, et nous confirmons une prédiction de Zhou et al. (2020) pour les interpolateurs à norme quasi minimale dans le cas particulier des données gaussiennes. Nous démontrons la généralité de la borne en l'appliquant au simplex, en obtenant un nouveau résultat de cohérence pour les interpolateurs à norme minimale ℓ1 (poursuite de base). Nos résultats montrent comment les limites de généralisation basées sur la norme peuvent expliquer et être utilisées pour analyser le surajustement bénin, au moins dans certains contextes.

https://neurips.cc/Conferences/2021/Schedule?showEvent=27997

Sur le rôle de l'optimisation dans la double descente : Une étude des moindres carrés

Ilja Kuzborskij - Csaba Szepesvari - Omar Rivasplata - Amal Rannen-Triki - Razvan Pascanu

Résumé : Empiriquement, il a été observé que la performance des réseaux de neurones profonds s'améliore régulièrement lorsque nous augmentons la taille du modèle, ce qui contredit la vision classique de l'overfitting et de la généralisation. Récemment, le phénomène de double descente a été proposé pour réconcilier cette observation avec la théorie, suggérant que l'erreur de test a une seconde descente lorsque le modèle devient suffisamment surparamétré, car la taille du modèle elle-même agit comme un régularisateur implicite. Dans cet article, nous ajoutons au nombre croissant de travaux dans ce domaine, en fournissant une étude minutieuse de la dynamique d'apprentissage en fonction de la taille du modèle pour le scénario des moindres carrés. Nous montrons une limite de risque excédentaire pour la solution de descente du gradient de l'objectif des moindres carrés. Cette limite dépend de la plus petite valeur propre non nulle de la matrice de covariance de l'échantillon des caractéristiques d'entrée, via une forme fonctionnelle qui présente un comportement de double descente. Cela donne une nouvelle perspective sur les courbes de double descente rapportées dans la littérature, car notre analyse de l'excès de risque permet de découpler l'effet de l'optimisation et de l'erreur de généralisation. En particulier, nous constatons que dans le cas de la régression sans bruit, la double descente est expliquée uniquement par des quantités liées à l'optimisation, ce qui a été manqué dans les études se concentrant sur la solution pseudo-inverse de Moore-Penrose. Nous pensons que notre dérivation offre une vision alternative par rapport aux travaux existants, en mettant en lumière une cause possible de ce phénomène, au moins dans le cadre des moindres carrés considérés. Nous examinons empiriquement si nos prédictions sont valables pour les réseaux neuronaux, en particulier si le spectre de la covariance d'échantillon des couches cachées intermédiaires a un comportement similaire à celui prédit par nos dérivations.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26732

Sur la convergence et l'efficacité de l'échantillon de la méthode du gradient politique à variance réduite.

Junyu Zhang - Chengzhuo Ni - zheng Yu - Csaba Szepesvari - Mengdi Wang

Résumé : Le gradient de politique (PG) donne lieu à une classe riche de méthodes d'apprentissage par renforcement (RL). Récemment, il y a eu une tendance émergente pour augmenter les méthodes PG existantes telles que REINFORCE par des techniques de réduction de variance. Cependant, toutes les méthodes d'apprentissage par renforcement existantes reposent sur une hypothèse de poids d'importance non vérifiable pour chaque itération des algorithmes. Dans cet article, un mécanisme simple de troncature du gradient est proposé pour résoudre ce problème. De plus, nous concevons une méthode de gradient de politique à variance réduite stochastique incrémentielle tronquée (TSIVR-PG), qui est capable de maximiser non seulement une somme cumulative de récompenses mais aussi une fonction d'utilité générale sur la distribution des visites à long terme d'une politique. Nous montrons une méthode O~(ϵ-3)

complexité d'échantillon pour TSIVR-PG pour trouver une politique ϵ-stationnaire. En supposant que la politique est surparamétrée et en exploitant la convexité cachée du problème, nous montrons en outre que TSIVR-PG converge vers une politique globale ϵ-optimale avec O~(ϵ-2) échantillons.

https://neurips.cc/Conferences/2021/Schedule?showEvent=28616

Pas de regrets pour avoir appris le Prieur dans Bandits

Soumya Basu - Branislav Kveton - Manzil Zaheer - Csaba Szepesvari

Résumé : Nous proposons AdaTS, un algorithme d'échantillonnage de Thompson qui s'adapte séquentiellement aux tâches de bandit avec lesquelles il interagit. L'idée clé d'AdaTS est de s'adapter à une distribution préalable de tâche inconnue en maintenant une distribution sur ses paramètres. Lors de la résolution d'une tâche de bandit, cette incertitude est marginalisée et correctement prise en compte. AdaTS est un algorithme entièrement bayésien qui peut être mis en œuvre efficacement dans plusieurs classes de problèmes de bandits. Nous dérivons des limites supérieures sur son regret de Bayes qui quantifient la perte due à l'ignorance de la tâche préalable, et nous montrons qu'elle est faible. Notre théorie est soutenue par des expériences, où AdaTS surpasse les algorithmes précédents et fonctionne bien même dans des problèmes difficiles du monde réel.

https://neurips.cc/Conferences/2021/Schedule?showEvent=27943

Apprentissage continu des tâches auxiliaires

Matthew McLeod - Chunlok Lo - Matthew Schlegel - Andrew Jacobsen - Raksha Kumaraswamy - Martha White - Adam White

Résumé : L'apprentissage de tâches auxiliaires, telles que des prédictions multiples sur le monde, peut fournir de nombreux avantages aux systèmes d'apprentissage par renforcement. Une variété d'algorithmes d'apprentissage hors politique ont été développés pour apprendre de telles prédictions, mais il y a encore peu de travail sur la façon d'adapter le comportement pour recueillir des données utiles pour ces prédictions hors politique. Dans ce travail, nous étudions un système d'apprentissage par renforcement conçu pour apprendre une collection de tâches auxiliaires, avec une politique de comportement apprenant à prendre des mesures pour améliorer ces prédictions auxiliaires. Nous soulignons la non-stationnarité inhérente à ce problème d'apprentissage continu de tâches auxiliaires, tant pour les apprenants de prédictions que pour l'apprenant de comportement. Nous développons un algorithme basé sur les caractéristiques du successeur qui facilite le suivi en cas de récompenses non stationnaires, et nous prouvons que la séparation entre l'apprentissage des caractéristiques du successeur et des récompenses permet d'améliorer le taux de convergence. Nous menons une étude approfondie sur le système d'apprentissage multi-prédiction qui en résulte.

https://neurips.cc/Conferences/2021/Schedule?showEvent=26449

Attribution de crédits structurels dans les réseaux neuronaux à l'aide de l'apprentissage par renforcement

Dhawal Gupta - Gabor Mihucz - Matthew Schlegel - James Kostas - Philip Thomas - Martha White

Résumé : L'attribution de crédits structurels dans les réseaux neuronaux est un problème de longue date, avec une variété d'alternatives à la rétropropagation proposées pour permettre la formation locale des nœuds. L'une des premières stratégies consistait à traiter chaque nœud comme un agent et à utiliser une méthode d'apprentissage par renforcement appelée REINFORCE pour mettre à jour chaque nœud localement avec seulement un signal de récompense global. Dans ce travail, nous revisitons cette approche et cherchons à savoir si nous pouvons tirer parti d'autres approches d'apprentissage par renforcement pour améliorer l'apprentissage. Nous formalisons d'abord la formation d'un réseau de neurones comme un problème d'apprentissage par renforcement à horizon fini et discutons de la manière dont cela facilite l'utilisation d'idées issues de l'apprentissage par renforcement comme l'apprentissage hors politique. Nous montrons que l'approche REINFORCE standard avec politique, même avec une variété d'approches de réduction de la variance, apprend des solutions sous-optimales. Nous introduisons une approche hors politique, pour faciliter le raisonnement sur l'action avide des autres agents et aider à surmonter la stochasticité des autres agents. Nous concluons en montrant que ces réseaux d'agents peuvent être plus robustes aux échantillons corrélés lors de l'apprentissage en ligne.

https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=26501

Ateliers

ECG pour le dépistage à haut débit de plusieurs maladies : Preuve de concept à l'aide de l'apprentissage profond multidiagnostic à partir d'ensembles de données basés sur la population (atelier sur l'imagerie médicale).

Weijie Sun - Sunil Vasu Kalmady - Amir S Salimi - Nariman Sepehrvand - Eric Ly - Abram Hindle - Russell Greiner - Padma Kaul

Résumé : Les anomalies de l'électrocardiogramme (ECG) sont liées aux maladies cardiovasculaires, mais peuvent également se produire dans d'autres conditions non cardiovasculaires telles que des conditions mentales, neurologiques, métaboliques et infectieuses. Cependant, la plupart des succès récents des prédictions diagnostiques basées sur l'apprentissage profond (DL) dans des cohortes de patients sélectionnés ont été limités à un petit ensemble de maladies cardiaques. Dans cette étude, nous utilisons un ensemble de données basé sur la population de plus de 250 000 patients avec plus de 1000 conditions médicales et plus de 2 millions d'ECG pour identifier un large éventail de maladies qui pourraient être diagnostiquées avec précision à partir du premier ECG hospitalier du patient. Nos modèles DL ont permis de découvrir 128 maladies et 68 catégories de maladies avec une forte performance discriminante.

http://www.cse.cuhk.edu.hk/~qdou/public/medneurips2021/88_ECG_for_high-throughput_screening_of_multiple_diseases_final_version.pdf

Désinformation, préjudice stochastique et effort coûteux : Une analyse principal-agent de la réglementation des plates-formes de médias sociaux (Cooperative AI Workshop)

Shehroze Khan James R. Wright

Description : La propagation de la désinformation sur les plateformes de médias sociaux est nuisible à la société. Ce préjudice peut se manifester par une dégradation progressive du discours public ; mais il peut aussi prendre la forme d'événements dramatiques soudains, comme la récente insurrection au Capitole. Les plateformes elles-mêmes sont les mieux placées pour empêcher la propagation de la désinformation, car elles ont le meilleur accès aux données pertinentes et l'expertise pour les utiliser. Cependant, l'atténuation de la désinformation est coûteuse, non seulement pour la mise en œuvre d'algorithmes de détection ou l'emploi d'efforts manuels, mais aussi parce que la limitation de ce type de contenu hautement viral a un impact sur l'engagement des utilisateurs et donc sur les revenus publicitaires potentiels. Puisque les coûts des contenus nuisibles sont supportés par d'autres entités, la plateforme n'aura donc aucune incitation à exercer le niveau d'effort socialement optimal. Ce problème est similaire à celui de la réglementation environnementale, dans laquelle les coûts des événements indésirables ne sont pas directement supportés par une entreprise, l'effort d'atténuation d'une entreprise n'est pas observable et le lien de causalité entre une conséquence dommageable et une défaillance spécifique est difficile à prouver. Dans le cas de la réglementation environnementale, une solution consiste à effectuer un contrôle coûteux pour s'assurer que l'entreprise prend des précautions adéquates conformément à une règle spécifique. Cependant, une règle fixe de classification de la désinformation perd de son efficacité avec le temps, car les mauvais acteurs peuvent apprendre à la contourner de manière séquentielle et stratégique. En codant notre domaine comme un processus de décision de Markov, nous démontrons qu'aucune pénalité basée sur une règle statique, quelle que soit son importance, ne peut inciter à un effort adéquat. Les pénalités basées sur une règle adaptative peuvent inciter à un effort optimal, mais de manière contre-intuitive, seulement si le régulateur sur-réagit suffisamment aux événements nuisibles en exigeant un niveau d'effort supérieur à l'optimal. Nous prescrivons la conception de mécanismes qui permettent de déterminer les coûts de l'effort de précaution des plateformes en matière de contrôle de la désinformation.

https://arxiv.org/abs/2106.09847

Apprentissage profond par renforcement

Pieter Abbeel - Chelsea Finn - David Silver - Matthew Taylor - Martha White - Srijita Das - Yuqing Du - Andrew Patterson - Manan Tomar - Olivia Watkins

Description : Ces dernières années, l'utilisation de réseaux neuronaux profonds comme approximateurs de fonctions a permis aux chercheurs d'étendre les techniques d'apprentissage par renforcement pour résoudre des tâches de contrôle de plus en plus complexes. Le domaine émergent de l'apprentissage par renforcement profond a donné lieu à des résultats empiriques remarquables dans des domaines riches et variés comme la robotique, les jeux de stratégie et les interactions multi-agents. Cet atelier réunira des chercheurs travaillant à l'intersection de l'apprentissage profond et de l'apprentissage par renforcement, et il aidera les chercheurs intéressés qui ne font pas partie de ce domaine à se faire une idée de l'état actuel de l'art et des orientations potentielles pour les contributions futures.

https://neurips.cc/Conferences/2021/Schedule?showEvent=21848

Traitement efficace du langage naturel et de la parole

Mehdi Rezagholizadeh - Lili Mou - Yue Dong - Pascal Poupart - Ali Ghodsi - Qun Liu

Description : Cet atelier vise à présenter certains problèmes fondamentaux dans le domaine du traitement du langage naturel et de la parole qui peuvent être d'intérêt pour la communauté générale de l'apprentissage automatique et de l'apprentissage profond afin d'améliorer l'efficacité des modèles, leur formation et leur inférence. Le programme de l'atelier offre une plate-forme interactive pour rassembler des experts et des talents du monde universitaire et de l'industrie par le biais de différents exposés invités, de discussions en panel, de soumissions et de révisions d'articles, de présentations orales et de posters et d'un programme de mentorat. Ce sera l'occasion de discuter et d'apprendre les uns des autres, d'échanger des idées, de créer des liens et de réfléchir à des solutions potentielles et à de futures collaborations. Les sujets de cet atelier peuvent intéresser les personnes travaillant sur l'apprentissage automatique général, l'apprentissage profond, l'optimisation, la théorie et les applications NLP & Speech.

https://neurips.cc/Conferences/2021/Schedule?showEvent=21848

Documents de l'atelier

Évaluation sûre pour l'apprentissage hors ligne : Sommes-nous prêts à déployer ?

Hager Radi- Josiah P. Hanna - Peter Stone - Matthew E. Taylor

Résumé : Le monde offre actuellement une abondance de données dans de multiples domaines, à partir desquelles nous pouvons apprendre des politiques d'apprentissage par renforcement (RL) sans interaction supplémentaire avec l'environnement. Les agents d'apprentissage par renforcement peuvent apprendre hors ligne à partir de ces données, mais leur déploiement pendant l'apprentissage peut être dangereux dans les domaines où la sécurité est essentielle. Par conséquent, il est essentiel de trouver un moyen d'estimer comment un agent nouvellement appris se comportera s'il est déployé dans l'environnement cible avant de le déployer réellement et sans risque de surestimer ses véritables performances. Pour y parvenir, nous introduisons un cadre pour l'évaluation sûre de l'apprentissage hors ligne en utilisant l'évaluation approximative des politiques hors ligne à haute confiance (HCOPE) pour estimer la performance des politiques hors ligne pendant l'apprentissage. Dans notre cadre, nous supposons une source de données, que nous divisons en un ensemble de formation, pour apprendre une politique hors ligne, et un ensemble de test, pour estimer une limite inférieure sur la politique hors ligne en utilisant l'évaluation hors politique avec bootstrap. L'estimation d'une limite inférieure nous indique la performance d'une politique cible nouvellement apprise avant qu'elle ne soit déployée dans l'environnement réel, et nous permet donc de décider quand déployer notre politique apprise.

https://neurips.cc/Conferences/2021/ScheduleMultitrack?event=38487

Trouver des prédictions utiles par descente méta-gradiente pour améliorer la prise de décision

Alex Kearney - Anna Koop - Johannes Günther - Patrick M. Pilarski

Résumé : Dans le domaine de l'apprentissage par renforcement informatique, un nombre croissant de travaux cherche à exprimer le modèle du monde d'un agent par des prédictions sur des sensations futures. Dans ce manuscrit, nous nous concentrons sur les prédictions exprimées en tant que fonctions de valeur générale : des estimations étendues dans le temps de l'accumulation d'un signal futur. L'un des défis consiste à déterminer, parmi l'infinité de prédictions que l'agent pourrait faire, celles qui pourraient soutenir la prise de décision. Dans ce travail, nous proposons une méthode de descente méta-gradiente par laquelle un agent peut directement spécifier les prédictions qu'il apprend, indépendamment des instructions du concepteur. À cette fin, nous introduisons un domaine partiellement observable adapté à cette étude. Nous démontrons ensuite qu'à travers l'interaction avec l'environnement, un agent peut sélectionner indépendamment les prédictions qui résolvent l'observabilité partielle, ce qui donne des performances similaires à celles des fonctions de valeur choisies par des experts. En apprenant, plutôt qu'en spécifiant manuellement ces prédictions, nous permettons à l'agent d'identifier des prédictions utiles de manière auto-supervisée, faisant ainsi un pas vers des systèmes véritablement autonomes.

Sessions orales

Convergence uniforme des interpolateurs : Largeur gaussienne, limites de la norme et surajustement bénin

Frederic Koehler - Lijia Zhou - Danica Sutherland - Nathan Srebro

Résumé : Nous considérons l'apprentissage par interpolation dans la régression linéaire à haute dimension avec des données gaussiennes, et prouvons une garantie de convergence uniforme générique sur l'erreur de généralisation des interpolateurs dans une classe d'hypothèses arbitraire en termes de largeur gaussienne de la classe. En appliquant la limite générique aux boules de norme euclidienne, nous retrouvons le résultat de cohérence de Bartlett et al. (2020) pour les interpolateurs à norme minimale, et nous confirmons une prédiction de Zhou et al. (2020) pour les interpolateurs à norme quasi minimale dans le cas particulier des données gaussiennes. Nous démontrons la généralité de la borne en l'appliquant au simplex, en obtenant un nouveau résultat de cohérence pour les interpolateurs à norme minimale ℓ1 (poursuite de base). Nos résultats montrent comment les limites de généralisation basées sur la norme peuvent expliquer et être utilisées pour analyser le surajustement bénin, au moins dans certains contextes.

https://neurips.cc/Conferences/2021/Schedule?showEvent=27998

Découvrez nos Solutions pour l'industrie pour plus d'informations sur la façon dont Amii peut aider votre organisation à comprendre et à adopter l'IA.

Tâches de bandit, apprentissage par renforcement profond et contrôle de la désinformation : Les chercheurs d'Amii à NeurIPS 2021

Articles acceptés

Ateliers

Documents de l'atelier

Sessions orales

Derniers articles d'actualité

Les humains améliorent l'IA avec Matt Taylor | Approximately Correct Podcast

Nouvelles mensuelles d'Amii - Juillet 2024

Donner du pouvoir aux fondateurs : La collaboration entre Amii et Communitech vise à stimuler l'adoption de l'IA

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle