Les discussions de l'heure du thé 2020 : Dixième semaine

Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.

La dixième semaine de l'émission Tea Time Talks :

Abhishek Naik : Apprentissage et planification dans les MDP à récompense moyenne.

Dans cet exposé, Abhishek parle d'une famille de nouveaux algorithmes d'apprentissage et de planification pour les processus de décision de Markov à récompense moyenne. La clé de ces algorithmes est l'utilisation de l'erreur de différence temporelle (TD) pour mettre à jour l'estimation du taux de récompense au lieu de l'erreur conventionnelle, ce qui permet de prouver la convergence dans le cas général hors politique sans avoir recours à des états de référence. Empiriquement, cela entraîne généralement un apprentissage plus rapide, tandis que le recours à un état de référence peut entraîner un apprentissage plus lent et des risques de divergence. Abhishek présente également une technique générale pour estimer la fonction de valeur réelle "centrée" plutôt que la fonction de valeur plus un offset.

Ashley Dalrymple : Le contrôle pavlovien de la marche

Les lésions de la moelle épinière peuvent entraîner une paralysie des jambes. Dans cet exposé, Ashley présente un implant de moelle épinière que son laboratoire a utilisé pour générer la marche chez un modèle de chat. Elle décrit ensuite comment ils ont utilisé les fonctions de valeur générales (GVF) et le contrôle pavlovien pour produire un comportement de marche sur le sol hautement adaptable.

Alex Ayoub : Apprentissage par renforcement basé sur un modèle avec régression ciblée sur la valeur.

Dans cette présentation, Alex discute d'un algorithme RL basé sur un modèle qui repose sur le principe de l'optimisme : à chaque épisode, on construit l'ensemble des modèles qui sont " cohérents " avec les données recueillies. Le critère de cohérence est basé sur l'erreur quadratique totale que le modèle encourt dans la tâche de prédiction des valeurs, telle que déterminée par la dernière estimation de valeur le long des transitions. La fonction de valeur suivante est alors choisie en résolvant le problème de planification optimiste avec l'ensemble des modèles construits.

Shivam Garg : Base de vraisemblance logarithmique pour le gradient politique

Les méthodes de gradient de politique ont une ligne de base critique pour réduire la variance de leur estimation. Dans cet exposé, Shivam discute d'une idée simple pour une ligne de base analogue pour la partie log-vraisemblance du gradient de politique. Tout d'abord, Shivam montre que le gradient de politique softmax dans le cas des bandits peut être écrit en deux expressions différentes mais équivalentes, ce qui motive la ligne de base de la log-vraisemblance. Alors que l'une de ces expressions est l'expression régulière largement utilisée, l'autre ne semble pas être populaire dans la littérature. Shivam montre ensuite comment ces expressions peuvent être étendues au cas complet du processus de décision de Markov (MDP) sous certaines hypothèses.

Les Tea Time Talks sont désormais terminés pour l'année, mais restez à l'écoute car nous mettrons en ligne les autres conférences dans les semaines à venir. En attendant, vous pouvez revoir ou rattraper les conférences précédentes sur notre liste de lecture Youtube.

Les discussions de l'heure du thé 2020 : Dixième semaine

Abhishek Naik : Apprentissage et planification dans les MDP à récompense moyenne.

Ashley Dalrymple : Le contrôle pavlovien de la marche

Alex Ayoub : Apprentissage par renforcement basé sur un modèle avec régression ciblée sur la valeur.

Shivam Garg : Base de vraisemblance logarithmique pour le gradient politique

Derniers articles d'actualité

Déchiffrer le code de la conférence

Comment le Chat GPT a ruiné le Noël d'Alona | Approximately Correct Podcast

Google Canada annonce de nouvelles subventions de recherche pour renforcer l'écosystème de l'IA au Canada

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle