Poste de recherche
Résumé
Les méthodes basées sur le gradient pour l'estimation de la valeur dans l'apprentissage par renforcement ont des propriétés de stabilité favorables, mais elles sont généralement beaucoup plus lentes que les méthodes d'apprentissage par différence temporelle (TD). Nous étudions les causes profondes de cette lenteur et montrons que l'erreur moyenne carrée de Bellman (MSBE) est une fonction de perte mal conditionnée dans le sens où son hessien a un grand nombre de conditions. Pour résoudre l'effet négatif du mauvais conditionnement de la MSBE sur les méthodes basées sur le gradient, nous proposons une méthode proximale sans lot de faible complexité qui suit approximativement la direction de Gauss-Newton et est asymptotiquement robuste au paramétrage. Notre algorithme principal, appelé RANS, est efficace dans le sens où il est significativement plus rapide que les méthodes à gradient résiduel tout en ayant presque la même complexité de calcul, et est compétitif avec la TD sur les problèmes classiques que nous avons testés.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
20 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.