Poste de recherche
L'apprentissage hors politique nous permet d'apprendre des politiques de comportement possibles à partir de l'expérience générée par une politique de comportement différente. Les algorithmes d'apprentissage par différence temporelle (TD) peuvent devenir instables lorsqu'ils sont combinés à l'approximation de fonctions et à l'échantillonnage hors politique - c'est ce qu'on appelle la "triade fatale". L'algorithme de différence temporelle emphatique (ETD(λ)) assure la convergence dans le cas linéaire en pondérant de manière appropriée les mises à jour TD(λ). Dans cet article, nous étendons l'utilisation des méthodes emphatiques aux agents d'apprentissage par renforcement profond. Nous montrons que l'adaptation naïve de l'ETD(λ) aux algorithmes populaires d'apprentissage par renforcement profond, qui utilisent des retours multi-étapes en vue avant, donne des performances médiocres. Nous dérivons ensuite de nouveaux algorithmes emphatiques à utiliser dans le contexte de tels algorithmes, et nous démontrons qu'ils apportent des avantages notables dans de petits problèmes conçus pour mettre en évidence l'instabilité des méthodes de TD. Enfin, nous avons observé une amélioration des performances lors de l'application de ces algorithmes à l'échelle sur des jeux Atari classiques de l'Arcade Learning Environment.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.