Poste de recherche
Les méthodes de région de confiance, telles que TRPO, sont souvent utilisées pour stabiliser les algorithmes d'optimisation de politique dans l'apprentissage par renforcement (RL). Bien que les stratégies actuelles de région de confiance soient efficaces pour le contrôle continu, elles nécessitent généralement une quantité prohibitive d'interaction avec l'environnement sur la politique. Pour résoudre ce problème, nous proposons une méthode de région de confiance hors politique, Trust-PCL. L'algorithme est le résultat de l'observation que la politique optimale et les valeurs d'état d'un objectif de récompense maximale avec un régularisateur d'entropie relative satisfont un ensemble de cohérences multi-étapes le long de tout chemin. Ainsi, Trust-PCL est capable de maintenir la stabilité de l'optimisation tout en exploitant les données hors politique pour améliorer l'efficacité de l'échantillonnage. Lorsqu'il est évalué sur un certain nombre de tâches de contrôle continu, Trust-PCL améliore la qualité de la solution et l'efficacité de l'échantillon de TRPO.
Remerciements
Nous remercions Matthew Johnson, Luke Metz, Shane Gu et l'équipe de Google Brain pour leurs commentaires et discussions perspicaces.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.