Nouvelles
Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.
La troisième semaine des discussions de l'heure du thé :
Dans le cadre de l'apprentissage par renforcement, le problème de l'évaluation des politiques consiste à estimer les valeurs en fonction d'une politique. Dans cet exposé, Kris explore l'évaluation inverse de la politique, qui est le processus de résolution d'une politique probable compte tenu d'une fonction de valeur, comme méthode pour dériver le comportement d'une fonction de valeur.
Andy discute de la distribution de l'erreur de prédiction lors de l'apprentissage de fonctions de valeur qui minimisent quelques fonctions objectives populaires en RL. Il le fait à l'aide d'une perspective géométrique des fonctions objectives.
Dans son exposé, Junfeng considère le problème de l'approximation de la distribution stationnaire d'une chaîne de Markov ergodique étant donné un ensemble de transitions échantillonnées. Les approches classiques basées sur la simulation supposent un accès au processus sous-jacent de sorte que des trajectoires d'une longueur suffisante puissent être rassemblées pour approximer l'échantillonnage stationnaire. Au lieu de cela, il considère un cadre alternatif où un ensemble fixe de transitions a été collecté au préalable par une procédure distincte (éventuellement inconnue). L'objectif est toujours d'estimer les propriétés de la distribution stationnaire, mais sans accès supplémentaire au système sous-jacent. Il propose un estimateur cohérent qui est basé sur la récupération d'une fonction de rapport de correction sur les données données. En particulier, il introduit une méthode de puissance variationnelle (VPM) qui fournit des estimations cohérentes prouvables dans des conditions générales. En plus d'unifier un certain nombre d'approches existantes provenant de différents sous-domaines, la VPM permet d'obtenir des estimations nettement meilleures dans toute une série de problèmes, notamment les files d'attente, les équations différentielles stochastiques, le post-traitement MCMC et l'évaluation hors politique.
Les interférences catastrophiques sont courantes dans de nombreux systèmes d'apprentissage en réseau et de nombreuses propositions existent pour les atténuer. Cependant, pour surmonter l'interférence, nous devons mieux la comprendre. Dans cet exposé, Vincent fournit une définition de l'interférence pour le contrôle dans l'apprentissage par renforcement. Son groupe évalue systématiquement leurs nouvelles mesures en évaluant la corrélation avec plusieurs mesures de la performance d'apprentissage, y compris la stabilité, l'efficacité de l'échantillon et la performance du contrôle en ligne et hors ligne dans une variété d'architectures d'apprentissage. Leur nouvelle mesure d'interférence leur permet de poser de nouvelles questions scientifiques sur les architectures d'apprentissage profond couramment utilisées. En particulier, ils montrent que la fréquence du réseau cible est un facteur dominant pour l'interférence, et que les mises à jour de la dernière couche entraînent une interférence significativement plus élevée que les mises à jour internes au réseau. Cette nouvelle mesure peut être coûteuse à calculer ; ils concluent en proposant une mesure de substitution efficace et démontrent empiriquement qu'elle est corrélée à leur définition de l'interférence.
Regardez les Tea Time Talks en direct en ligne cette année, du lundi au jeudi de 16 h 15 à 16 h 45 MT. Chaque entretien se déroulera ici (Veuillez noter que si vous accédez au chat à partir d'un identifiant de courriel hors du domaine de ualberta.ca, il se peut que vous deviez attendre quelques secondes pour qu'une personne de la réunion vous laisse entrer).
Vous pouvez consulter le programme complet pour trouver les conférences qui vous intéressent, vous inscrire à la liste de diffusion du RLAI ou revoir les conférences précédentes sur la liste de lecture Youtube.
7 novembre 2024
Nouvelles
Amii s'associe à pipikwan pêhtâkwan et à sa jeune entreprise wâsikan kisewâtisiwin pour exploiter l'IA afin de lutter contre la désinformation au sujet des peuples autochtones et d'inclure ces derniers dans le développement de l'IA. Le projet est soutenu par l'engagement de PrairiesCan à accélérer l'adoption de l'IA par les PME de la région des Prairies.
7 novembre 2024
Nouvelles
Russ Greiner, boursier Amii et titulaire de la chaire CIFAR AI du Canada, et David Wishart, chercheur et collaborateur de l'Université de l'Alberta, ont reçu le prix Brockhouse Canada pour la recherche interdisciplinaire en sciences et en ingénierie, décerné par le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG).
6 novembre 2024
Nouvelles
Jonathan Schaeffer, membre fondateur d'Amii, a passé 40 ans à avoir un impact considérable sur la théorie des jeux et l'IA. Aujourd'hui, il se retire du monde universitaire et partage certaines des connaissances qu'il a acquises au cours de son impressionnante carrière.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.