Poste de recherche
Nous considérons l'évaluation de politique hors politique avec approximation de fonction (FA) dans les MDP à récompense moyenne, où l'objectif est d'estimer à la fois le taux de récompense et la fonction de valeur différentielle. Pour ce problème, le bootstrap est nécessaire et, avec l'apprentissage hors politique et l'AF, il en résulte la triade mortelle (Sutton & Barto, 2018). Pour résoudre le problème de la triade fatale, nous proposons deux nouveaux algorithmes, reproduisant le succès célèbre des algorithmes de TD de gradient dans le cadre de la récompense moyenne. En termes d'estimation de la fonction de valeur différentielle, les algorithmes sont les premiers algorithmes convergents d'approximation de fonction linéaire hors politique. En termes d'estimation du taux de récompense, les algorithmes sont les premiers algorithmes convergents d'approximation de fonction linéaire hors politique qui ne nécessitent pas l'estimation du rapport de densité. Nous démontrons empiriquement l'avantage des algorithmes proposés, ainsi que de leurs variantes non linéaires, sur une approche compétitive basée sur le rapport de densité, dans un domaine simple ainsi que dans des tâches difficiles de simulation de robots.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.