Nouvelles

Amii à la Conférence internationale sur la représentation de l'apprentissage 2022

Amii est fière de mettre en avant les travaux de ses chercheurs qui ont été publiés lors de la dixième conférence annuelle International Conference on Learning Representation(ICLR) du 25 au 28 avril.

L'ICLR est l'une des principales conférences consacrées aux progrès de l'apprentissage profond, une branche de l'intelligence artificielle qui s'inspire de la façon dont les êtres humains apprennent. Les communications présentées à l'ICLR couvrent une grande variété de sujets, notamment des recherches ayant des applications dans les domaines de la vision par ordinateur, de la reconnaissance vocale, des soins de santé, de la robotique, etc.

Consultez les articles des chercheurs d'Amii qui ont été acceptés pour la conférence de cette année.

SGD avec Momentum

Kirby BanmanGarnet Liam Peet-Pare, Nidhi Hegde, Alona Fyshe, Martha White

Résumé : La plupart des garanties de convergence pour la descente de gradient stochastique avec momentum (SGDm) reposent sur un échantillonnage iid. Pourtant, la SGDm est souvent utilisée en dehors de ce régime, dans des contextes où les échantillons d'entrée sont corrélés dans le temps, comme l'apprentissage continu et l'apprentissage par renforcement. Les travaux existants ont montré que les SGDm avec une taille de pas décroissante peuvent converger sous une corrélation temporelle markovienne. Dans ce travail, nous montrons que le SGDm sous décalage covariable avec une taille de pas fixe peut être instable et diverger. En particulier, nous montrons que le SGDm sous décalage de covariables est un oscillateur paramétrique, et peut donc souffrir d'un phénomène connu sous le nom de résonance. Nous approximons le système d'apprentissage comme un système d'équations différentielles ordinaires variant dans le temps, et nous nous appuyons sur la théorie existante pour caractériser la divergence/convergence du système comme des modes résonants/non résonants. Le résultat théorique est limité au cadre linéaire avec un décalage périodique des covariables, nous complétons donc empiriquement ce résultat pour montrer que les phénomènes de résonance persistent même en cas de décalage non périodique des covariables, de dynamique non linéaire avec des réseaux neuronaux, et d'optimiseurs autres que SGDm.

Programmation dynamique double stochastique neuronale

Hanjun Dai, Yuan Xue, Zia Syed, Dale SchuurmansBo Dai

Résumé : La programmation dynamique duale stochastique (SDDP) est une méthode de pointe pour résoudre l'optimisation stochastique à plusieurs étapes, largement utilisée pour modéliser les tâches d'optimisation des processus du monde réel. Malheureusement, SDDP a une complexité de pire cas qui s'étend exponentiellement dans le nombre de variables de décision, ce qui limite sévèrement l'applicabilité aux problèmes de faible dimension. Pour surmonter cette limitation, nous étendons le SDDP en introduisant un modèle neuronal entraînable qui apprend à faire correspondre les instances du problème à une fonction de valeur linéaire par morceaux dans un espace intrinsèque de faible dimension, qui est conçu spécifiquement pour interagir avec un solveur SDDP de base, afin d'accélérer les performances d'optimisation sur de nouvelles instances. La programmation dynamique double stochastique neuronale (ν-SDDP) proposée s'auto-améliore continuellement en résolvant des problèmes successifs. Une étude empirique démontre que ν-SDDP peut réduire de manière significative le coût de résolution des problèmes sans sacrifier la qualité de la solution par rapport aux concurrents tels que SDDP et les algorithmes d'apprentissage par renforcement, sur une gamme de problèmes d'optimisation de processus synthétiques et réels.

De meilleurs signaux de supervision en observant les chemins d'apprentissage

Yi Ren, Shangmin Guo, Danica J. Sutherland

Résumé : Des modèles mieux supervisés pourraient avoir de meilleures performances. Dans cet article, nous clarifions d'abord ce qui constitue une bonne supervision pour un problème de classification, puis nous expliquons deux méthodes existantes de raffinage des étiquettes, le lissage des étiquettes et la distillation des connaissances, en fonction du critère que nous proposons. Pour mieux comprendre pourquoi et comment une meilleure supervision émerge, nous observons le chemin d'apprentissage, c'est-à-dire la trajectoire des prédictions du modèle pendant la formation, pour chaque échantillon de formation. Nous constatons que le modèle peut spontanément affiner les "mauvaises" étiquettes par le biais d'une trajectoire d'apprentissage en "zig-zag", ce qui se produit à la fois sur les jeux de données jouets et réels. L'observation du chemin d'apprentissage fournit non seulement une nouvelle perspective pour comprendre la distillation des connaissances, le surajustement et la dynamique d'apprentissage, mais révèle également que le signal de supervision d'un réseau d'enseignants peut être très instable à proximité des meilleurs points de la formation sur des tâches réelles. Inspirés par ce constat, nous proposons un nouveau schéma de distillation des connaissances, Filter-KD, qui améliore les performances de classification en aval dans divers contextes.

Comprendre et exploiter le surparamétrage dans l'estimation récursive des valeurs

Chenjun Xiao, Bo Dai, Jincheng Mei, Oscar A Ramirez, Ramki Gummadi, Chris Harris, Dale Schuurmans

Résumé : La théorie de l'approximation des fonctions dans l'apprentissage par renforcement (RL) considère généralement des représentations de faible capacité qui impliquent un compromis entre l'erreur d'approximation, la stabilité et la généralisation. Les architectures profondes actuelles, cependant, fonctionnent dans un régime surparamétré où l'erreur d'approximation n'est pas nécessairement un goulot d'étranglement. Pour mieux comprendre l'utilité des modèles profonds en RL, nous présentons une analyse de l'estimation récursive de la valeur à l'aide de représentations linéaires surparamétrées qui fournit des résultats utiles et transférables. Tout d'abord, nous montrons que les mises à jour classiques telles que l'apprentissage par différence temporelle (TD) ou l'itération à valeur ajustée (FVI) convergent vers des points fixes différents de ceux de la minimisation résiduelle (RM) dans le cas linéaire surparamétré. Nous développons ensuite une interprétation unifiée de l'estimation linéaire surparamétrée de la valeur comme minimisant la norme euclidienne des poids sous réserve de contraintes alternatives. Une conséquence pratique est que RM peut être modifié par une simple altération des cibles de sauvegarde pour obtenir les mêmes points fixes que FVI et TD (lorsqu'ils convergent), tout en assurant universellement la stabilité. De plus, nous fournissons une analyse de l'erreur de généralisation de ces méthodes, en démontrant des limites par itération sur l'erreur de prédiction de valeur de FVI, et des limites de points fixes pour TD et RM. Compte tenu de cette compréhension, nous développons ensuite de nouveaux outils algorithmiques pour améliorer l'estimation récursive de la valeur avec des modèles profonds. En particulier, nous extrayons deux régularisateurs qui pénalisent respectivement les poids de la couche supérieure hors de la portée et la colinéarité des caractéristiques de la couche supérieure. Empiriquement, nous constatons que ces régularisateurs améliorent considérablement la stabilité de TD et FVI, tout en permettant à RM d'égaler et même parfois de dépasser leurs performances de généralisation avec une stabilité assurée.

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !