Poste de recherche
Nous établissons une nouvelle connexion entre l'apprentissage par renforcement (RL) basé sur les valeurs et les politiques en nous appuyant sur une relation entre la cohérence des valeurs temporelles softmax et l'optimalité des politiques sous régularisation entropique. Plus précisément, nous montrons que les valeurs d'action cohérentes softmax correspondent aux probabilités optimales de politique régularisées par l'entropie le long de toute séquence d'action, indépendamment de la provenance. À partir de cette observation, nous développons un nouvel algorithme RL, Path Consistency Learning (PCL), qui minimise une notion d'erreur de cohérence molle le long de séquences d'actions multi-étapes extraites de traces de politique ou non. Nous examinons le comportement de PCL dans différents scénarios et nous montrons que PCL peut être interprété comme une généralisation des algorithmes de critique d'acteur et d'apprentissage Q. Nous approfondissons ensuite cette relation en montrant que les algorithmes d'apprentissage Q sont plus efficaces que les algorithmes de critique d'acteur. Nous approfondissons ensuite cette relation en montrant comment un seul modèle peut être utilisé pour représenter à la fois une politique et les valeurs d'état softmax correspondantes, éliminant ainsi le besoin d'une critique séparée. L'évaluation expérimentale démontre que PCL surpasse de manière significative la critique d'acteur forte et les bases de l'apprentissage Q sur plusieurs benchmarks.
Remerciements
Nous remercions Rafael Cosman, Brendan O'Donoghue, Volodymyr Mnih, George Tucker, Irwan Bello et l'équipe de Google Brain pour leurs commentaires et discussions perspicaces.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.