Poste de recherche
Nous explorons les méthodes de différence temporelle (TD) à horizon fixe, des algorithmes d'apprentissage par renforcement pour un nouveau type de fonction de valeur qui prédit la somme des récompenses sur un nombre fixe de pas de temps futurs. Pour apprendre la fonction de valeur pour l'horizon h, ces algorithmes s'appuient sur la fonction de valeur pour l'horizon h-1, ou un horizon plus court. Étant donné qu'aucune fonction de valeur ne s'amorce à partir d'elle-même, les méthodes à horizon fixe sont à l'abri des problèmes de stabilité qui affectent d'autres méthodes de TD hors politique utilisant l'approximation de fonction (également connues sous le nom de "triade fatale"). Bien que les méthodes à horizon fixe nécessitent le stockage de fonctions de valeur supplémentaires, cela donne à l'agent un pouvoir prédictif supplémentaire, tandis que la complexité supplémentaire peut être considérablement réduite par des mises à jour parallèles, des poids partagés et un bootstrapping en n étapes. Nous montrons comment utiliser les fonctions de valeur à horizon fixe pour résoudre les problèmes d'apprentissage par renforcement de manière compétitive avec des méthodes telles que l'apprentissage Q qui apprend des fonctions de valeur conventionnelles. Nous prouvons également la convergence des méthodes de différence temporelle à horizon fixe avec une approximation linéaire et générale des fonctions. Dans l'ensemble, nos résultats établissent les méthodes TD à horizon fixe comme un nouveau moyen viable d'éviter les problèmes de stabilité de la triade fatale.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.