Nouvelles

Les discussions de l'heure du thé 2020 : Onzième semaine

Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.

La onzième semaine de l'émission Tea Time Talks :

Kirby Banman : Les non-stationnarités de régression comme systèmes dynamiques

De nombreux algorithmes d'apprentissage supervisé sont conçus pour fonctionner avec un échantillonnage i.i.d.. Lorsque ces algorithmes sont appliqués à des problèmes d'échantillonnage non stationnaire, ils peuvent mal se comporter - ce qui n'est pas surprenant si l'on prend le temps de comprendre les conditions dans lesquelles le comportement d'un algorithme est (ou n'est pas) garanti. L'analyse des systèmes dynamiques nous offre quelques outils pour étendre ces garanties à certains types d'échantillonnage non stationnaire. Cet exposé illustre ces idées dans un cadre simple : l'optimisation de modèles de régression linéaire avec SGD+momentum sous une non-stationnarité périodique simple.

Manan Tomar : Algorithmes d'apprentissage par renforcement par la cupidité à plusieurs étapes.

Les politiques avides à étapes multiples ont été largement utilisées dans l'apprentissage par renforcement (AR) basé sur un modèle, tant lorsqu'un modèle de l'environnement est disponible (par exemple, dans le jeu de Go) que lorsqu'il est appris. Dans cet exposé, Manan présente un article qu'il a cosigné et qui explore les avantages des politiques avides à plusieurs étapes dans l'apprentissage par renforcement sans modèle, lorsqu'elles sont employées à l'aide d'algorithmes de programmation dynamique à plusieurs étapes : l'itération de politique $\kappa$ ($\kappa$-PI) et l'itération de valeur $\kappa$ ($\kappa$-VI). Ces méthodes calculent de manière itérative la politique ($\kappa$-PI) et la fonction de valeur ($\kappa$-VI) suivantes en résolvant un problème de décision de substitution avec une récompense formée et un facteur d'actualisation plus petit. Les auteurs dérivent des algorithmes RL sans modèle basés sur $\kappa$-PI et $\kappa$-VI dans lesquels le problème de substitution peut être résolu par n'importe quelle méthode RL à action discrète ou continue, telle que DQN et TRPO ; ils identifient l'importance d'un hyper-paramètre qui contrôle la mesure dans laquelle le problème de substitution est résolu et suggèrent une manière de définir ce paramètre. Évalués sur une gamme de tâches de référence Atari et MuJoCo, leurs résultats indiquent que pour la bonne gamme de $\kappa$, leurs algorithmes surpassent DQN et TRPO. Cela montre que leurs algorithmes avides à plusieurs étapes sont suffisamment généraux pour être appliqués à n'importe quel algorithme RL existant et peuvent améliorer ses performances de manière significative.

Robin Chauhan : TalkRL et autres projets

Robin partage les points forts et les enseignements tirés d'une année d'entretiens avec des chercheurs en RL sur le podcast TalkRL. En outre, il se penche sur un agent Pommerman qu'il a conçu.

Juan Fernando Hernandez Garcia : L'architecture d'apprentissage en cascade-corrélation : Le réseau oublié

En 1990, Scott E. Fahlman et Christian Lebiere ont proposé une architecture de réseau neuronal constructive - la corrélation en cascade - comme alternative à la formation de réseaux neuronaux profonds à architectures fixes par rétropropagation. Malgré des résultats prometteurs et plusieurs articles de suivi, la cascade-corrélation n'est pas populaire dans la communauté de l'apprentissage profond. Dans cet exposé, Juan explore les raisons pour lesquelles la corrélation en cascade n'est plus populaire, tout en présentant plusieurs résultats empiriques qui démontrent la performance de la corrélation en cascade dans plusieurs contextes et dans différents domaines. Il discute des inconvénients de la corrélation en cascade qui ont été trouvés dans la littérature, mais aussi de plusieurs extensions qui ont été proposées pour répondre à chacun d'entre eux. Il conclut en expliquant pourquoi il vaut la peine de s'intéresser à la corrélation en cascade.

Les Tea Time Talks sont désormais terminés pour l'année, mais restez à l'écoute car nous mettrons en ligne les derniers entretiens la semaine prochaine. En attendant, vous pouvez revoir ou rattraper les conférences précédentes sur notre liste de lecture Youtube.

Les discussions de l'heure du thé 2020 : Onzième semaine

Kirby Banman : Les non-stationnarités de régression comme systèmes dynamiques

Manan Tomar : Algorithmes d'apprentissage par renforcement par la cupidité à plusieurs étapes.

Robin Chauhan : TalkRL et autres projets

Juan Fernando Hernandez Garcia : L'architecture d'apprentissage en cascade-corrélation : Le réseau oublié

Derniers articles d'actualité

Déchiffrer le code de la conférence

Comment le Chat GPT a ruiné le Noël d'Alona | Approximately Correct Podcast

Google Canada annonce de nouvelles subventions de recherche pour renforcer l'écosystème de l'IA au Canada

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle