Cette semaine, des étudiants et des chercheurs d'Amii présenteront leurs travaux à la 2024 International Conference on Learning Representation (ICLR), qui se tiendra à Vienne, en Autriche, du 7 au 11 mai.
L'ICLR est l'une des principales conférences sur l'apprentissage par représentation, une branche de l'apprentissage automatique qui se concentre sur la transformation et l'extraction de données dans le but d'identifier des caractéristiques ou des modèles utiles. La conférence attire des experts du monde entier pour présenter des travaux de pointe dont les applications s'étendent à des domaines tels que la vision par ordinateur, la biologie informatique, les jeux, la robotique et bien d'autres encore.
Cette année, les chercheurs d'Amii partagent leurs connaissances sur l'apprentissage de la représentation, les algorithmes d'apprentissage efficaces, les critères d'évaluation et bien plus encore. Jetez un coup d'œil aux recherches présentées ci-dessous. (Les noms en gras désignent un boursier Amii et/ou une chaire d'IA du CIFAR Canada, ou un étudiant affilié à l'Amii)
Mise à jour : Félicitations au boursier Amii et à la chaire CIFAR AI du Canada Dale Schuurmans et al. pour avoir remporté un Outstanding Paper Award à la conférence de cette année avec leur article intitulé "Learning Interactive Real-World Simulators".
Présentations d'affiches en personne
Descente stochastique de gradient pour les processus gaussiens bien faits
Jihao Andreas Lin - Shreyas Padhy - Javier Antorán - Austin Tripp - Alexander Terenin - Csaba Szepesvari- José Miguel Hernández Lobato - David Janz
Résumé :
Comme on le sait, l'échantillonnage du postérieur et le calcul de la moyenne du postérieur dans la régression par processus gaussien se réduisent à la résolution d'un grand système linéaire d'équations. Nous étudions l'utilisation de la descente de gradient stochastique pour résoudre ce système linéaire, et nous montrons que lorsqu'elle est bien faite - c'est-à-dire que nous utilisons les connaissances spécifiques des communautés de l'optimisation et des noyaux - la descente de gradient stochastique est très efficace. À cette fin, nous introduisons un algorithme de descente stochastique double particulièrement simple, expliquons sa conception de manière intuitive et illustrons les choix de conception par une série d'études d'ablation. D'autres expériences démontrent que notre nouvelle méthode est très compétitive. En particulier, nos évaluations sur les tâches de régression UCI et sur l'optimisation bayésienne distinguent notre approche des gradients conjugués préconditionnés et des approximations variationnelles des processus gaussiens. En outre, notre méthode place la régression par processus gaussien sur un pied d'égalité avec les réseaux neuronaux graphiques de pointe pour la prédiction de l'affinité de liaison moléculaire.
Diffusion évolutive pour la génération de matériaux
Sherry Yang - Kwanghwan Cho - Amil Merchant - Pieter Abbeel - Dale Schuurmans - Igor Mordatch - Ekin Cubuk
Résumé :
Les modèles génératifs formés sur des données à l'échelle de l'internet sont capables de générer des textes, des images et des vidéos nouveaux et réalistes. La question suivante est naturellement de savoir si ces modèles peuvent faire progresser la science, par exemple en générant de nouveaux matériaux stables. Traditionnellement, les modèles avec des structures explicites (par exemple, les graphes) ont été utilisés pour modéliser les relations structurelles dans les données scientifiques (par exemple, les atomes et les liaisons dans les cristaux), mais la génération de structures peut être difficile à mettre à l'échelle de systèmes vastes et complexes. Un autre défi de la génération de matériaux est l'inadéquation entre les mesures de modélisation générative standard et les applications en aval. Par exemple, les mesures courantes telles que l'erreur de reconstruction ne correspondent pas bien à l'objectif en aval qui est de découvrir de nouveaux matériaux stables. Dans ce travail, nous relevons le défi de l'extensibilité en développant une représentation cristalline unifiée qui peut représenter n'importe quelle structure cristalline (UniMat), puis en entraînant un modèle probabiliste de diffusion sur ces représentations UniMat. Nos résultats empiriques suggèrent que, malgré l'absence de modélisation explicite de la structure, UniMat peut générer des structures cristallines très fidèles à partir de systèmes chimiques plus vastes et plus complexes, en surpassant les approches précédentes basées sur les graphes sous diverses métriques de modélisation générative. Pour mieux relier la qualité de génération des matériaux aux applications en aval, telles que la découverte de nouveaux matériaux stables, nous proposons des mesures supplémentaires pour évaluer les modèles génératifs des matériaux, y compris l'énergie de formation par composition et la stabilité par rapport aux coques convexes grâce à l'énergie de décomposition de la théorie de la fonction de densité (DFT). Enfin, nous montrons que la génération conditionnelle avec UniMat peut s'étendre à des ensembles de données de cristaux précédemment établis avec jusqu'à des millions de structures de cristaux, surpassant la recherche de structure aléatoire (la principale méthode actuelle pour la découverte de structures) dans la découverte de nouveaux matériaux stables.
Apprentissage des simulateurs interactifs du monde réel
Sherry Yang - Yilun Du - Seyed Ghasemipour - Jonathan Tompson - Leslie Kaelbling - Dale Schuurmans - Pieter Abbeel
Résumé :
Les modèles génératifs formés à partir de données Internet ont révolutionné la manière dont le contenu des textes, des images et des vidéos peut être créé. La prochaine étape pour les modèles génératifs consistera peut-être à simuler une expérience réaliste en réponse à des actions entreprises par des humains, des robots et d'autres agents interactifs. Les applications d'un simulateur du monde réel vont de la création de contenu contrôlable dans les jeux et les films à la formation d'agents incarnés purement dans la simulation qui peuvent être directement déployés dans le monde réel. Nous explorons la possibilité d'apprendre un simulateur universel (UniSim) d'interaction avec le monde réel par le biais de la modélisation générative. Nous commençons par faire une observation importante : les ensembles de données naturelles disponibles pour l'apprentissage d'un simulateur du monde réel sont souvent riches selon différents axes (par exemple, des objets abondants dans les données d'images, des actions densément échantillonnées dans les données robotiques et des mouvements divers dans les données de navigation). Grâce à une orchestration minutieuse de divers ensembles de données, chacun fournissant un aspect différent de l'expérience globale, UniSim peut émuler la façon dont les humains et les agents interagissent avec le monde en simulant le résultat visuel d'instructions de haut niveau telles que "ouvrir le tiroir" et de commandes de bas niveau telles que "se déplacer de x,y" à partir de scènes et d'objets par ailleurs statiques. Il existe de nombreux cas d'utilisation pour un tel simulateur du monde réel. Par exemple, nous utilisons UniSim pour former des planificateurs de haut niveau en langage visuel et des politiques d'apprentissage par renforcement de bas niveau, chacun d'entre eux montrant un transfert zéro après une formation purement dans un simulateur de monde réel appris. Nous montrons également que d'autres types d'intelligence, tels que les modèles de sous-titrage vidéo, peuvent bénéficier d'une formation avec une expérience simulée dans UniSim, ce qui ouvre la voie à des applications encore plus vastes.
Adaptation probabiliste de modèles texte-vidéo à boîte noire
Sherry Yang - Yilun Du - Bo Dai - Dale Schuurmans - Joshua B Tenenbaum - Pieter Abbeel
Résumé :
Les grands modèles texte-vidéo entraînés sur des données à l'échelle de l'internet ont démontré des capacités exceptionnelles à générer des vidéos de haute fidélité à partir de descriptions textuelles arbitraires. Cependant, à l'instar des modèles de langage propriétaires, les grands modèles texte-vidéo sont souvent des boîtes noires dont les paramètres de pondération ne sont pas accessibles au public, ce qui pose un défi de taille pour l'adaptation de ces modèles à des domaines spécifiques tels que la robotique, l'animation et la stylisation personnalisée. Inspirés par la façon dont un grand modèle de langage peut être incité à effectuer de nouvelles tâches sans avoir accès aux poids du modèle, nous étudions comment adapter un modèle texte-vidéo pré-entraîné en boîte noire à une variété de domaines en aval sans avoir accès aux poids du modèle pré-entraîné. Pour répondre à cette question, nous proposons \emph{\methodname}, qui exploite la fonction de score d'un grand modèle de diffusion vidéo pré-entraîné en tant qu'antécédent probabiliste pour guider la génération d'un petit modèle vidéo spécifique à une tâche. Nos expériences montrent qu'en incorporant de manière probabiliste les connaissances générales et la fidélité du modèle pré-entraîné, un petit modèle avec seulement 1,25 % de paramètres du modèle pré-entraîné peut générer des vidéos de haute qualité mais spécifiques à un domaine pour une variété de domaines en aval tels que l'animation, la modélisation égocentrique et la modélisation des données robotiques simulées et du monde réel. Comme les grands modèles texte-vidéo commencent à être disponibles en tant que service similaire aux grands modèles de langage, nous préconisons que les institutions privées exposent des scores de modèles de diffusion vidéo en tant que résultats en plus des vidéos générées afin de permettre une adaptation flexible des grands modèles texte-vidéo pré-entraînés par le grand public.
Récupérer la source des politiques programmatiques : Espaces programmatiques ou espaces latents
Tales Carvalho - Kenneth Tjhia - Levi Lelis
Résumé :
Des travaux récents ont introduit LEAPS et HPRL, des systèmes qui apprennent des espaces latents de langages spécifiques à un domaine, qui sont utilisés pour définir des politiques programmatiques pour des processus de décision markoviens partiellement observables (POMDP). Ces systèmes induisent un espace latent tout en optimisant les pertes telles que la perte de comportement, qui vise à atteindre la localité dans le comportement du programme, ce qui signifie que les vecteurs proches dans l'espace latent devraient correspondre à des programmes au comportement similaire. Dans cet article, nous montrons que l'espace programmatique, induit par le langage spécifique au domaine et ne nécessitant aucune formation, présente des valeurs pour la perte de comportement similaires à celles observées dans les espaces latents présentés dans des travaux antérieurs. En outre, les algorithmes recherchant dans l'espace programmatique sont nettement plus performants que ceux de LEAPS et HPRL. Pour expliquer nos résultats, nous avons mesuré la "convivialité" des deux espaces pour les algorithmes de recherche locale. Nous avons découvert que les algorithmes sont plus susceptibles de s'arrêter à des maxima locaux lors de la recherche dans l'espace latent que lors de la recherche dans l'espace programmatique. Cela implique que la topologie d'optimisation de l'espace programmatique, induite par la fonction de récompense en conjonction avec la fonction de voisinage, est plus propice à la recherche que celle de l'espace latent. Ce résultat explique la supériorité des performances dans l'espace programmatique.
Dévoiler les options avec la décomposition en réseaux neuronaux
Mahdi Alikhasi - Levi Lelis
Résumé :
Dans l'apprentissage par renforcement, les agents apprennent souvent des politiques pour des tâches spécifiques sans pouvoir généraliser ces connaissances à des tâches connexes. Cet article présente un algorithme qui tente de remédier à cette limitation en décomposant les réseaux neuronaux codant les politiques pour les processus de décision de Markov en sous-politiques réutilisables, qui sont utilisées pour synthétiser des actions ou des options étendues dans le temps. Nous considérons les réseaux neuronaux dotés de fonctions d'activation linéaires par morceaux, de sorte qu'ils peuvent être mis en correspondance avec un arbre équivalent similaire aux arbres de décision obliques. Étant donné que chaque nœud d'un tel arbre sert de fonction à l'entrée de l'arbre, chaque sous-arbre est une sous-politique de la politique principale. Nous transformons chacune de ces sous-politiques en options en l'entourant de boucles while dont le nombre d'itérations varie. Étant donné le grand nombre d'options, nous proposons un mécanisme de sélection basé sur la minimisation de la perte de Levin pour une politique uniforme sur ces options. Des résultats empiriques dans deux domaines du monde en grille où l'exploration peut être difficile confirment que notre méthode peut identifier des options utiles, accélérant ainsi le processus d'apprentissage sur des tâches similaires mais différentes.
Génération fédérée d'invites pilotées par le texte pour les modèles vision-langage
Chen Qiu - Xingyu Li- Chaithanya Kumar Mummadi - Madan Ganesh - Zhenzhen Li - Lu Peng - Wan-Yi Lin
Résumé :
L'apprentissage de messages-guides pour les modèles vision-langage, par exemple CoOp, s'est avéré très efficace pour adapter CLIP à différentes tâches en aval, ce qui en fait une solution prometteuse pour l'apprentissage fédéré pour des raisons de calcul. Les techniques d'apprentissage d'invites existantes remplacent les invites textuelles rédigées à la main par des vecteurs appris qui offrent des améliorations sur les classes vues, mais peinent à se généraliser aux classes non vues. Notre travail s'attaque à ce problème en proposant une génération de messages-guides pilotée par le texte et fédérée (FedTPG), qui apprend un réseau unifié de génération de messages-guides à travers de multiples clients distants de manière évolutive. Le réseau de génération d'invites est conditionné par des entrées textuelles liées à la tâche, il est donc sensible au contexte, ce qui lui permet de se généraliser pour les classes vues et non vues. Nos évaluations empiriques complètes sur neuf ensembles de données de classification d'images diversifiées montrent que notre méthode est supérieure aux méthodes d'apprentissage d'invites fédérées existantes, obtenant une meilleure généralisation globale pour les classes vues et non vues, ainsi que pour les ensembles de données.
LRR : Représentation continue reproductible pilotée par le langage contre les attaques de suivi adverses
Jianlang Chen - Xuhong Ren - Qing Guo - Felix Juefei-Xu - Di Lin - Wei Feng - Lei Ma - Jianjun Zhao
Résumé :
Le suivi d'objets visuels joue un rôle essentiel dans les systèmes autonomes basés sur la vision, car il vise à estimer la position et la taille de l'objet d'intérêt dans une vidéo en direct. Malgré les progrès considérables réalisés dans ce domaine, les systèmes de suivi de pointe (SOTA) échouent souvent lorsqu'ils sont confrontés à des perturbations adverses dans les images entrantes. Cela peut entraîner d'importants problèmes de robustesse et de sécurité lorsque ces traqueurs sont déployés dans le monde réel. Pour atteindre une grande précision sur les données propres et adverses, nous proposons de construire une représentation continue spatio-temporelle en utilisant le guidage textuel sémantique de l'objet d'intérêt. Cette nouvelle représentation continue nous permet de reconstruire les images entrantes afin de maintenir une cohérence sémantique et d'apparence avec l'objet d'intérêt et ses contreparties propres. Par conséquent, la méthode proposée se défend avec succès contre les différentes attaques de suivi adverses SOTA tout en conservant une grande précision sur les données propres. En particulier, notre méthode augmente de manière significative la précision du suivi en cas d'attaques adverses, avec une amélioration relative d'environ 90 % sur le UAV123, ce qui est encore plus élevé que la précision sur les données propres.
Couverture de l'activation des neurones : Repenser la détection et la généralisation hors distribution
Yibing Liu - Chris Xing TIAN - Haoliang Li - Lei Ma - Shiqi Wang
Résumé :
Le problème des données hors distribution (OOD) se pose généralement lorsque les réseaux neuronaux rencontrent des données qui s'écartent de manière significative de la distribution des données d'apprentissage, c'est-à-dire de la distribution interne (InD). Dans cet article, nous étudions le problème OOD du point de vue de l'activation des neurones. Nous commençons par formuler les états d'activation des neurones en tenant compte à la fois de la sortie du neurone et de son influence sur les décisions du modèle. Ensuite, pour caractériser la relation entre les neurones et les problèmes d'OOD, nous introduisons la couverture d'activation des neurones (NAC), une mesure simple du comportement des neurones dans le cadre des données InD. En nous appuyant sur notre NAC, nous montrons que 1) les entrées InD et OOD peuvent être largement séparées sur la base du comportement des neurones, ce qui facilite considérablement le problème de la détection OOD et surpasse les 21 méthodes précédentes sur trois points de référence (CIFAR-10, CIFAR-100 et ImageNet-1K). 2) une corrélation positive entre le NAC et la capacité de généralisation du modèle se maintient de manière cohérente à travers les architectures et les ensembles de données, ce qui permet un critère basé sur le NAC pour évaluer la robustesse du modèle. Par rapport aux critères de validation InD courants, nous montrons que le NAC permet non seulement de sélectionner des modèles plus robustes, mais qu'il présente également une corrélation plus forte avec les performances des tests OOD.
Apprentissage d'une représentation adéquate du laplacien
Diego Gomez - Michael Bowling - Marlos C. Machado
Résumé :
La capacité d'apprendre de bonnes représentations des états est essentielle pour résoudre les problèmes d'apprentissage par renforcement à grande échelle, où l'exploration, la généralisation et le transfert sont particulièrement difficiles. La représentation laplacienne est une approche prometteuse pour résoudre ces problèmes en induisant un encodage informatif de l'état et des récompenses intrinsèques pour la découverte d'actions étendues dans le temps et la formation de récompenses. Pour obtenir la représentation laplacienne, il faut calculer le système propre du laplacien du graphe, qui est souvent approximé par des objectifs d'optimisation compatibles avec les approches d'apprentissage profond. Ces approximations dépendent toutefois d'hyperparamètres impossibles à régler efficacement, convergent vers des rotations arbitraires des vecteurs propres souhaités et sont incapables de récupérer avec précision les valeurs propres correspondantes. Dans cet article, nous introduisons un objectif théoriquement valable et un algorithme d'optimisation correspondant pour l'approximation de la représentation du laplacien. Notre approche permet de récupérer naturellement les vrais vecteurs propres et valeurs propres tout en éliminant la dépendance des hyperparamètres des approximations précédentes. Nous fournissons des garanties théoriques pour notre méthode et nous montrons que ces résultats se traduisent empiriquement par un apprentissage robuste dans des environnements multiples.
Prouvable et pratique : Exploration efficace dans l'apprentissage par renforcement via Langevin Monte Carlo
Haque Ishfaq - Qingfeng Lan - Pan Xu - A. Rupam Mahmood- Doina Precup - anima anandkumar - Kamyar Azizzadenesheli
Résumé :
Ce résumé contient des caractères mathématiques qui ne peuvent pas être affichés correctement ici. Voir le résumé ici.
Prise en compte de la perte de plasticité et de l'oubli catastrophique dans l'apprentissage continu
Mohamed Elsayed - A. Rupam Mahmood
Résumé :
Les méthodes d'apprentissage des représentations profondes sont confrontées à un apprentissage continu, souffrant à la fois d'un oubli catastrophique d'unités utiles et d'une perte de plasticité, souvent due à des unités rigides et inutiles. Si de nombreuses méthodes traitent ces deux problèmes séparément, seules quelques-unes traitent actuellement les deux simultanément. Dans cet article, nous présentons la descente de gradient perturbée basée sur l'utilité (Utility-based Perturbed Gradient Descent - UPGD) comme une nouvelle approche pour l'apprentissage continu des représentations. L'UPGD combine des mises à jour de gradient avec des perturbations, en appliquant des modifications plus petites aux unités les plus utiles, pour les protéger de l'oubli, et des modifications plus grandes aux unités moins utiles, pour rajeunir leur plasticité. Nous utilisons une configuration d'apprentissage en flux difficile où les problèmes d'apprentissage continu comportent des centaines de non-stationnarités et des limites de tâches inconnues. Nous montrons que de nombreuses méthodes existantes souffrent d'au moins un de ces problèmes, qui se manifeste principalement par une diminution de la précision au fil des tâches. D'autre part, UPGD continue d'améliorer ses performances et surpasse ou est compétitive avec toutes les méthodes dans tous les problèmes. Enfin, dans des expériences d'apprentissage par renforcement étendues avec PPO, nous montrons que si Adam présente une baisse de performance après l'apprentissage initial, UPGD l'évite en traitant les deux problèmes d'apprentissage continu.
Distillation d'ensemble pour l'analyse non supervisée des circonscriptions électorales
Behzad Shayegh - Yanshuai Cao - Xiaodan Zhu - Jackie Cheung - Lili Mou
Résumé :
Nous étudions la tâche d'analyse syntaxique non supervisée des constituants, qui organise les mots et les phrases d'une phrase en une structure hiérarchique sans utiliser de données linguistiquement annotées. Nous observons que les analyseurs non supervisés existants capturent différents aspects des structures d'analyse, qui peuvent être exploités pour améliorer les performances de l'analyse non supervisée. À cette fin, nous proposons une notion de "moyenne d'arbre", sur laquelle nous proposons une nouvelle méthode d'ensemble pour l'analyse non supervisée. Pour améliorer l'efficacité de l'inférence, nous distillons ensuite les connaissances de l'ensemble dans un modèle d'étudiant ; un tel processus d'ensemble puis de distillation est une approche efficace pour atténuer le problème de lissage excessif existant dans les méthodes courantes de distillation multi-enseignants. Les expériences montrent que notre méthode surpasse toutes les approches précédentes, en démontrant de manière cohérente son efficacité et sa robustesse au cours de diverses exécutions, avec différents composants d'ensemble et dans des conditions de changement de domaine.
Transfert d'un message continu de type "Zero-Shot" : Généralisation de la sémantique de la tâche à travers les modèles linguistiques
Zijun Wu - Yongkang Wu - Lili Mou
Résumé :
Le réglage des messages-guides dans le traitement du langage naturel (NLP) est devenu une méthode de plus en plus populaire pour adapter les grands modèles de langage à des tâches spécifiques. Cependant, la transférabilité de ces invites, en particulier les invites continues, entre différents modèles reste un défi. Dans ce travail, nous proposons une méthode de transfert d'invites continues à zéro coup, où les invites sources sont encodées dans l'espace relatif et les invites cibles correspondantes sont recherchées pour être transférées vers les modèles cibles. Les résultats expérimentaux confirment l'efficacité de notre méthode, en montrant que la "sémantique de la tâche" dans les invites continues peut être généralisée à travers divers modèles linguistiques. En outre, nous constatons que la combinaison de la "sémantique de la tâche" provenant de plusieurs modèles sources peut encore améliorer les performances du transfert.
Apprentissage récurrent évolutif en temps réel à l'aide de réseaux constructifs en colonnes
Khurram Javed - Haseeb Shah - Richard Sutton - Martha White
Résumé :
La construction d'états à partir de séquences d'observations est un élément important des agents d'apprentissage par renforcement. L'une des solutions pour la construction d'états consiste à utiliser des réseaux neuronaux récurrents. La rétropropagation dans le temps (BPTT) et l'apprentissage récurrent en temps réel (RTRL) sont deux méthodes populaires basées sur le gradient pour l'apprentissage récurrent. La BPTT nécessite des trajectoires complètes d'observations avant de pouvoir calculer les gradients et n'est pas adaptée aux mises à jour en ligne. RTRL peut effectuer des mises à jour en ligne mais s'adapte mal aux réseaux de grande taille. Dans cet article, nous proposons deux contraintes qui rendent RTRL évolutif. Nous montrons qu'en décomposant le réseau en modules indépendants ou en apprenant le réseau par étapes, nous pouvons faire évoluer RTRL linéairement avec le nombre de paramètres. Contrairement aux algorithmes d'estimation du gradient évolutifs antérieurs, tels que UORO et Truncated-BPTT, nos algorithmes n'ajoutent pas de bruit ou de biais à l'estimation du gradient. Au lieu de cela, ils font un compromis entre la capacité fonctionnelle du réseau et l'efficacité de l'apprentissage sur le plan informatique. Nous démontrons l'efficacité de notre approche par rapport à Truncated-BPTT sur un benchmark de prédiction inspiré de l'apprentissage animal et en procédant à l'évaluation de politiques pré-entraînées pour les jeux d'Atari 2600.