Combler le fossé entre l'apprentissage par renforcement basé sur les valeurs et les politiques

Nous établissons une nouvelle connexion entre l'apprentissage par renforcement (RL) basé sur les valeurs et les politiques en nous appuyant sur une relation entre la cohérence des valeurs temporelles softmax et l'optimalité des politiques sous régularisation entropique. Plus précisément, nous montrons que les valeurs d'action cohérentes softmax correspondent aux probabilités optimales de politique régularisées par l'entropie le long de toute séquence d'action, indépendamment de la provenance. À partir de cette observation, nous développons un nouvel algorithme RL, Path Consistency Learning (PCL), qui minimise une notion d'erreur de cohérence molle le long de séquences d'actions multi-étapes extraites de traces de politique ou non. Nous examinons le comportement de PCL dans différents scénarios et nous montrons que PCL peut être interprété comme une généralisation des algorithmes de critique d'acteur et d'apprentissage Q. Nous approfondissons ensuite cette relation en montrant que les algorithmes d'apprentissage Q sont plus efficaces que les algorithmes de critique d'acteur. Nous approfondissons ensuite cette relation en montrant comment un seul modèle peut être utilisé pour représenter à la fois une politique et les valeurs d'état softmax correspondantes, éliminant ainsi le besoin d'une critique séparée. L'évaluation expérimentale démontre que PCL surpasse de manière significative la critique d'acteur forte et les bases de l'apprentissage Q sur plusieurs benchmarks.

Remerciements

Nous remercions Rafael Cosman, Brendan O'Donoghue, Volodymyr Mnih, George Tucker, Irwan Bello et l'équipe de Google Brain pour leurs commentaires et discussions perspicaces.

Combler le fossé entre l'apprentissage par renforcement basé sur les valeurs et les politiques

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle