Poste de recherche

Trust-PCL : une méthode de région de confiance hors politique pour le contrôle continu

Les méthodes de région de confiance, telles que TRPO, sont souvent utilisées pour stabiliser les algorithmes d'optimisation de politique dans l'apprentissage par renforcement (RL). Bien que les stratégies actuelles de région de confiance soient efficaces pour le contrôle continu, elles nécessitent généralement une quantité prohibitive d'interaction avec l'environnement sur la politique. Pour résoudre ce problème, nous proposons une méthode de région de confiance hors politique, Trust-PCL. L'algorithme est le résultat de l'observation que la politique optimale et les valeurs d'état d'un objectif de récompense maximale avec un régularisateur d'entropie relative satisfont un ensemble de cohérences multi-étapes le long de tout chemin. Ainsi, Trust-PCL est capable de maintenir la stabilité de l'optimisation tout en exploitant les données hors politique pour améliorer l'efficacité de l'échantillonnage. Lorsqu'il est évalué sur un certain nombre de tâches de contrôle continu, Trust-PCL améliore la qualité de la solution et l'efficacité de l'échantillon de TRPO.

Remerciements

Nous remercions Matthew Johnson, Luke Metz, Shane Gu et l'équipe de Google Brain pour leurs commentaires et discussions perspicaces.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !