Amii est fière de mettre en avant les travaux de ses chercheurs qui ont été publiés lors de la dixième conférence annuelle International Conference on Learning Representation(ICLR) du 25 au 28 avril.

L'ICLR est l'une des principales conférences consacrées aux progrès de l'apprentissage profond, une branche de l'intelligence artificielle qui s'inspire de la façon dont les êtres humains apprennent. Les communications présentées à l'ICLR couvrent une grande variété de sujets, notamment des recherches ayant des applications dans les domaines de la vision par ordinateur, de la reconnaissance vocale, des soins de santé, de la robotique, etc.

Consultez les articles des chercheurs d'Amii qui ont été acceptés pour la conférence de cette année.

SGD avec Momentum

Kirby BanmanGarnet Liam Peet-Pare, Nidhi Hegde, Alona Fyshe, Martha White

Résumé : La plupart des garanties de convergence pour la descente de gradient stochastique avec momentum (SGDm) reposent sur un échantillonnage iid. Pourtant, la SGDm est souvent utilisée en dehors de ce régime, dans des contextes où les échantillons d'entrée sont corrélés dans le temps, comme l'apprentissage continu et l'apprentissage par renforcement. Les travaux existants ont montré que le SGDm avec une taille de pas décroissante peut converger en cas de corrélation temporelle markovienne. Dans ce travail, nous montrons que le SGDm sous changement de covariable avec une taille de pas fixe peut être instable et diverger. En particulier, nous montrons que le SGDm sous changement de covariable est un oscillateur paramétrique et qu'il peut donc souffrir d'un phénomène connu sous le nom de résonance. Nous approximons le système d'apprentissage comme un système d'équations différentielles ordinaires variant dans le temps, et nous nous appuyons sur la théorie existante pour caractériser la divergence/convergence du système comme des modes résonnants/non résonnants. Le résultat théorique est limité au cadre linéaire avec déplacement périodique des covariables, nous complétons donc empiriquement ce résultat pour montrer que les phénomènes de résonance persistent même en cas de déplacement non périodique des covariables, de dynamique non linéaire avec des réseaux neuronaux et des optimiseurs autres que SGDm.

Programmation dynamique double stochastique neuronale

Hanjun Dai, Yuan Xue, Zia Syed, Dale SchuurmansHanjun Dai, Bo Dai

Résumé : La programmation dynamique stochastique duale (SDDP) est une méthode de pointe pour résoudre l'optimisation stochastique en plusieurs étapes, largement utilisée pour modéliser les tâches d'optimisation des processus dans le monde réel. Malheureusement, la SDDP a une complexité dans le pire des cas qui s'étend de façon exponentielle dans le nombre de variables de décision, ce qui limite sévèrement l'applicabilité à des problèmes de faible dimension. Pour surmonter cette limitation, nous étendons le SDDP en introduisant un modèle neuronal entraînable qui apprend à cartographier les instances du problème à une fonction de valeur linéaire par morceaux dans un espace intrinsèque de faible dimension, qui est architecturé spécifiquement pour interagir avec un solveur SDDP de base, de sorte qu'il peut accélérer les performances d'optimisation sur de nouvelles instances. La programmation dynamique duale stochastique neuronale proposée (ν-SDDP) s'améliore continuellement en résolvant des problèmes successifs. Une étude empirique démontre que la ν-SDDP peut réduire de manière significative le coût de résolution des problèmes sans sacrifier la qualité des solutions par rapport à des concurrents tels que la SDDP et les algorithmes d'apprentissage par renforcement, sur une série de problèmes d'optimisation de processus synthétiques et réels.

De meilleurs signaux de supervision en observant les chemins d'apprentissage

Yi Ren, Shangmin Guo, Danica J. Sutherland

Résumé : Les modèles mieux supervisés pourraient être plus performants. Dans cet article, nous clarifions d'abord ce qui constitue une bonne supervision pour un problème de classification, puis nous expliquons deux méthodes existantes de raffinement des étiquettes, le lissage des étiquettes et la distillation des connaissances, en fonction du critère que nous proposons. Pour mieux comprendre pourquoi et comment une meilleure supervision émerge, nous observons le chemin d'apprentissage, c'est-à-dire la trajectoire des prédictions du modèle pendant l'apprentissage, pour chaque échantillon d'apprentissage. Nous constatons que le modèle peut spontanément affiner les "mauvaises" étiquettes par le biais d'une trajectoire d'apprentissage en "zig-zag", qui se produit à la fois sur des ensembles de données fictifs et réels. L'observation de la trajectoire d'apprentissage offre non seulement une nouvelle perspective pour comprendre la distillation des connaissances, le surajustement et la dynamique d'apprentissage, mais révèle également que le signal de supervision d'un réseau d'enseignants peut être très instable à proximité des meilleurs points de la formation sur des tâches réelles. Inspirés par cette constatation, nous proposons un nouveau schéma de distillation des connaissances, Filter-KD, qui améliore les performances de classification en aval dans divers contextes.

Comprendre et exploiter le surparamétrage dans l'estimation récursive des valeurs

Chenjun Xiao, Bo Dai, Jincheng Mei, Oscar A Ramirez, Ramki Gummadi, Chris Harris, Dale Schuurmans

Résumé : La théorie de l'approximation des fonctions dans l'apprentissage par renforcement (RL) considère généralement des représentations à faible capacité qui impliquent un compromis entre l'erreur d'approximation, la stabilité et la généralisation. Les architectures profondes actuelles, cependant, fonctionnent dans un régime surparamétré où l'erreur d'approximation n'est pas nécessairement un goulot d'étranglement. Afin de mieux comprendre l'utilité des modèles profonds dans le domaine de la réalité virtuelle, nous présentons une analyse de l'estimation récursive de valeurs à l'aide de représentations linéaires surparamétrées qui fournit des résultats utiles et transférables. Tout d'abord, nous montrons que les mises à jour classiques telles que l'apprentissage par différence temporelle (TD) ou l'itération de la valeur ajustée (FVI) convergent vers des points fixes différents de ceux de la minimisation résiduelle (RM) dans le cas linéaire surparamétré. Nous développons ensuite une interprétation unifiée de l'estimation linéaire surparamétrée des valeurs comme la minimisation de la norme euclidienne des poids sous réserve de contraintes alternatives. Une conséquence pratique est que RM peut être modifié par une simple altération des objectifs de sauvegarde pour obtenir les mêmes points fixes que FVI et TD (lorsqu'ils convergent), tout en garantissant universellement la stabilité. En outre, nous fournissons une analyse de l'erreur de généralisation de ces méthodes, en démontrant des limites par itération sur l'erreur de prédiction de valeur de FVI, et des limites de point fixe pour TD et RM. Grâce à cette compréhension, nous développons ensuite de nouveaux outils algorithmiques pour améliorer l'estimation récursive de la valeur avec des modèles profonds. En particulier, nous extrayons deux régularisateurs qui pénalisent respectivement les poids de la couche supérieure hors portée et la colinéarité dans les caractéristiques de la couche supérieure. Nous constatons empiriquement que ces régularisateurs améliorent considérablement la stabilité de TD et FVI, tout en permettant à RM d'égaler et même parfois de dépasser leurs performances de généralisation avec une stabilité assurée.