Nouvelles
Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.
La dixième semaine de l'émission Tea Time Talks :
Dans cet exposé, Abhishek parle d'une famille de nouveaux algorithmes d'apprentissage et de planification pour les processus de décision de Markov à récompense moyenne. La clé de ces algorithmes est l'utilisation de l'erreur de différence temporelle (TD) pour mettre à jour l'estimation du taux de récompense au lieu de l'erreur conventionnelle, ce qui permet de prouver la convergence dans le cas général hors politique sans avoir recours à des états de référence. Empiriquement, cela entraîne généralement un apprentissage plus rapide, tandis que le recours à un état de référence peut entraîner un apprentissage plus lent et des risques de divergence. Abhishek présente également une technique générale pour estimer la fonction de valeur réelle "centrée" plutôt que la fonction de valeur plus un offset.
Les lésions de la moelle épinière peuvent entraîner une paralysie des jambes. Dans cet exposé, Ashley présente un implant de moelle épinière que son laboratoire a utilisé pour générer la marche chez un modèle de chat. Elle décrit ensuite comment ils ont utilisé les fonctions de valeur générales (GVF) et le contrôle pavlovien pour produire un comportement de marche sur le sol hautement adaptable.
Dans cette présentation, Alex discute d'un algorithme RL basé sur un modèle qui repose sur le principe de l'optimisme : à chaque épisode, on construit l'ensemble des modèles qui sont " cohérents " avec les données recueillies. Le critère de cohérence est basé sur l'erreur quadratique totale que le modèle encourt dans la tâche de prédiction des valeurs, telle que déterminée par la dernière estimation de valeur le long des transitions. La fonction de valeur suivante est alors choisie en résolvant le problème de planification optimiste avec l'ensemble des modèles construits.
Les méthodes de gradient de politique ont une ligne de base critique pour réduire la variance de leur estimation. Dans cet exposé, Shivam discute d'une idée simple pour une ligne de base analogue pour la partie log-vraisemblance du gradient de politique. Tout d'abord, Shivam montre que le gradient de politique softmax dans le cas des bandits peut être écrit en deux expressions différentes mais équivalentes, ce qui motive la ligne de base de la log-vraisemblance. Alors que l'une de ces expressions est l'expression régulière largement utilisée, l'autre ne semble pas être populaire dans la littérature. Shivam montre ensuite comment ces expressions peuvent être étendues au cas complet du processus de décision de Markov (MDP) sous certaines hypothèses.
Les Tea Time Talks sont désormais terminés pour l'année, mais restez à l'écoute car nous mettrons en ligne les autres conférences dans les semaines à venir. En attendant, vous pouvez revoir ou rattraper les conférences précédentes sur notre liste de lecture Youtube.
8 avril 2024
Nouvelles
Les boursiers d'Amii partagent des conseils sur la manière de tirer le meilleur parti de votre expérience de la conférence.
26 mars 2024
Nouvelles
Dans l'épisode de ce mois-ci, Alona explique comment ChatGPT a changé la perception qu'a le public de ce que les modèles de langage d'IA peuvent faire, rendant instantanément obsolètes la plupart des références antérieures, et parle de l'excitation et de l'intensité du travail dans un domaine qui évolue rapidement comme l'IA.
18 mars 2024
Nouvelles
Google.org annonce de nouvelles subventions de recherche pour soutenir la recherche critique sur l'IA au Canada, axée sur des domaines tels que la durabilité et le développement responsable de l'IA. Les subventions accordées à Amii, à l'Institut canadien de recherches avancées (CIFAR) et au Centre international d'expertise de Montréal sur l'IA (CEIMIA) s'élèvent à un total de 2,7 millions de dollars.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.