Nouvelles
Maintenant que les 2020 Tea Time Talks sont sur Youtube, vous pouvez toujours avoir le temps de prendre le thé avec Amii et le laboratoire RLAI! Animées par le Dr Richard S. Sutton, conseiller scientifique en chef d'Amii, ces conférences de 20 minutes sur des sujets techniques sont données par des étudiants, des professeurs et des invités. Les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer, avec des sujets allant des idées qui commencent à prendre racine aux projets entièrement terminés.
La dixième semaine de l'émission Tea Time Talks :
Dans cet exposé, Abhishek parle d'une famille de nouveaux algorithmes d'apprentissage et de planification pour les processus de décision de Markov à récompense moyenne. La clé de ces algorithmes est l'utilisation de l'erreur de différence temporelle (TD) pour mettre à jour l'estimation du taux de récompense au lieu de l'erreur conventionnelle, ce qui permet de prouver la convergence dans le cas général hors politique sans avoir recours à des états de référence. Empiriquement, cela entraîne généralement un apprentissage plus rapide, tandis que le recours à un état de référence peut entraîner un apprentissage plus lent et des risques de divergence. Abhishek présente également une technique générale pour estimer la fonction de valeur réelle "centrée" plutôt que la fonction de valeur plus un offset.
Les lésions de la moelle épinière peuvent entraîner une paralysie des jambes. Dans cet exposé, Ashley présente un implant de moelle épinière que son laboratoire a utilisé pour générer la marche chez un modèle de chat. Elle décrit ensuite comment ils ont utilisé les fonctions de valeur générales (GVF) et le contrôle pavlovien pour produire un comportement de marche sur le sol hautement adaptable.
Dans cette présentation, Alex discute d'un algorithme RL basé sur un modèle qui repose sur le principe de l'optimisme : à chaque épisode, on construit l'ensemble des modèles qui sont " cohérents " avec les données recueillies. Le critère de cohérence est basé sur l'erreur quadratique totale que le modèle encourt dans la tâche de prédiction des valeurs, telle que déterminée par la dernière estimation de valeur le long des transitions. La fonction de valeur suivante est alors choisie en résolvant le problème de planification optimiste avec l'ensemble des modèles construits.
Les méthodes de gradient de politique ont une ligne de base critique pour réduire la variance de leur estimation. Dans cet exposé, Shivam discute d'une idée simple pour une ligne de base analogue pour la partie log-vraisemblance du gradient de politique. Tout d'abord, Shivam montre que le gradient de politique softmax dans le cas des bandits peut être écrit en deux expressions différentes mais équivalentes, ce qui motive la ligne de base de la log-vraisemblance. Alors que l'une de ces expressions est l'expression régulière largement utilisée, l'autre ne semble pas être populaire dans la littérature. Shivam montre ensuite comment ces expressions peuvent être étendues au cas complet du processus de décision de Markov (MDP) sous certaines hypothèses.
Les Tea Time Talks sont désormais terminés pour l'année, mais restez à l'écoute car nous mettrons en ligne les autres conférences dans les semaines à venir. En attendant, vous pouvez revoir ou rattraper les conférences précédentes sur notre liste de lecture Youtube.
7 novembre 2024
Nouvelles
Amii s'associe à pipikwan pêhtâkwan et à sa jeune entreprise wâsikan kisewâtisiwin pour exploiter l'IA afin de lutter contre la désinformation au sujet des peuples autochtones et d'inclure ces derniers dans le développement de l'IA. Le projet est soutenu par l'engagement de PrairiesCan à accélérer l'adoption de l'IA par les PME de la région des Prairies.
7 novembre 2024
Nouvelles
Russ Greiner, boursier Amii et titulaire de la chaire CIFAR AI du Canada, et David Wishart, chercheur et collaborateur de l'Université de l'Alberta, ont reçu le prix Brockhouse Canada pour la recherche interdisciplinaire en sciences et en ingénierie, décerné par le Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG).
6 novembre 2024
Nouvelles
Jonathan Schaeffer, membre fondateur d'Amii, a passé 40 ans à avoir un impact considérable sur la théorie des jeux et l'IA. Aujourd'hui, il se retire du monde universitaire et partage certaines des connaissances qu'il a acquises au cours de son impressionnante carrière.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.