Poste de recherche
Pour estimer les fonctions de valeur des politiques à partir de données exploratoires, la plupart des algorithmes d'apprentissage hors politique sans modèle reposent sur l'échantillonnage par importance, où l'utilisation de ratios d'échantillonnage par importance conduit souvent à des estimations avec une variance importante. Il est donc souhaitable d'apprendre le hors-politique sans utiliser les ratios. Cependant, un tel algorithme n'existe pas pour l'apprentissage multi-étapes avec approximation de fonction. Dans cet article, nous présentons le premier algorithme de ce type basé sur des mises à jour d'apprentissage en différence temporelle (TD). Nous montrons que l'utilisation explicite des ratios d'échantillonnage d'importance peut être éliminée en faisant varier la quantité de bootstrapping dans les mises à jour TD en fonction de l'action. Notre nouvel algorithme atteint la stabilité en utilisant une mise à jour TD basée sur le gradient à deux échelles de temps. Un algorithme antérieur basé sur la représentation par table de consultation, appelé Tree Backup, peut également être récupéré en utilisant l'amorçage en fonction de l'action, devenant ainsi un cas particulier de notre algorithme. Dans deux tâches difficiles hors politique, nous démontrons que notre algorithme est stable, qu'il évite efficacement le problème de la grande variance et qu'il peut être nettement plus performant que son homologue de pointe.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.