Nouvelles

Les discussions de l'heure du thé 2020 : Troisième semaine

Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.

La troisième semaine des discussions de l'heure du thé :

Kris De Asis : Évaluation inverse des politiques pour une prise de décision basée sur la valeur

Dans le cadre de l'apprentissage par renforcement, le problème de l'évaluation des politiques consiste à estimer les valeurs en fonction d'une politique. Dans cet exposé, Kris explore l'évaluation inverse de la politique, qui est le processus de résolution d'une politique probable compte tenu d'une fonction de valeur, comme méthode pour dériver le comportement d'une fonction de valeur.

Andy Patterson : Géométrie des fonctions objectives pour l'apprentissage des valeurs

Andy discute de la distribution de l'erreur de prédiction lors de l'apprentissage de fonctions de valeur qui minimisent quelques fonctions objectives populaires en RL. Il le fait à l'aide d'une perspective géométrique des fonctions objectives.

Junfeng Wen : Estimation de la distribution stationnaire par lots

Dans son exposé, Junfeng considère le problème de l'approximation de la distribution stationnaire d'une chaîne de Markov ergodique étant donné un ensemble de transitions échantillonnées. Les approches classiques basées sur la simulation supposent un accès au processus sous-jacent de sorte que des trajectoires d'une longueur suffisante puissent être rassemblées pour approximer l'échantillonnage stationnaire. Au lieu de cela, il considère un cadre alternatif où un ensemble fixe de transitions a été collecté au préalable par une procédure distincte (éventuellement inconnue). L'objectif est toujours d'estimer les propriétés de la distribution stationnaire, mais sans accès supplémentaire au système sous-jacent. Il propose un estimateur cohérent qui est basé sur la récupération d'une fonction de rapport de correction sur les données données. En particulier, il introduit une méthode de puissance variationnelle (VPM) qui fournit des estimations cohérentes prouvables dans des conditions générales. En plus d'unifier un certain nombre d'approches existantes provenant de différents sous-domaines, la VPM permet d'obtenir des estimations nettement meilleures dans toute une série de problèmes, notamment les files d'attente, les équations différentielles stochastiques, le post-traitement MCMC et l'évaluation hors politique.

Vincent Liu : Vers une mesure pratique de l'interférence pour l'apprentissage par renforcement

Les interférences catastrophiques sont courantes dans de nombreux systèmes d'apprentissage en réseau et de nombreuses propositions existent pour les atténuer. Cependant, pour surmonter l'interférence, nous devons mieux la comprendre. Dans cet exposé, Vincent fournit une définition de l'interférence pour le contrôle dans l'apprentissage par renforcement. Son groupe évalue systématiquement leurs nouvelles mesures en évaluant la corrélation avec plusieurs mesures de la performance d'apprentissage, y compris la stabilité, l'efficacité de l'échantillon et la performance du contrôle en ligne et hors ligne dans une variété d'architectures d'apprentissage. Leur nouvelle mesure d'interférence leur permet de poser de nouvelles questions scientifiques sur les architectures d'apprentissage profond couramment utilisées. En particulier, ils montrent que la fréquence du réseau cible est un facteur dominant pour l'interférence, et que les mises à jour de la dernière couche entraînent une interférence significativement plus élevée que les mises à jour internes au réseau. Cette nouvelle mesure peut être coûteuse à calculer ; ils concluent en proposant une mesure de substitution efficace et démontrent empiriquement qu'elle est corrélée à leur définition de l'interférence.


Regardez les Tea Time Talks en direct en ligne cette année, du lundi au jeudi de 16 h 15 à 16 h 45 MT. Chaque entretien se déroulera ici (Veuillez noter que si vous accédez au chat à partir d'un identifiant de courriel hors du domaine de ualberta.ca, il se peut que vous deviez attendre quelques secondes pour qu'une personne de la réunion vous laisse entrer).

Vous pouvez consulter le programme complet pour trouver les conférences qui vous intéressent, vous inscrire à la liste de diffusion du RLAI ou revoir les conférences précédentes sur la liste de lecture Youtube.

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !