Poste de recherche

Combler le fossé entre l'apprentissage par renforcement basé sur les valeurs et les politiques

Nous établissons une nouvelle connexion entre l'apprentissage par renforcement (RL) basé sur les valeurs et les politiques en nous appuyant sur une relation entre la cohérence des valeurs temporelles softmax et l'optimalité des politiques sous régularisation entropique. Plus précisément, nous montrons que les valeurs d'action cohérentes softmax correspondent aux probabilités optimales de politique régularisées par l'entropie le long de toute séquence d'action, indépendamment de la provenance. À partir de cette observation, nous développons un nouvel algorithme RL, Path Consistency Learning (PCL), qui minimise une notion d'erreur de cohérence molle le long de séquences d'actions multi-étapes extraites de traces de politique ou non. Nous examinons le comportement de PCL dans différents scénarios et nous montrons que PCL peut être interprété comme une généralisation des algorithmes de critique d'acteur et d'apprentissage Q. Nous approfondissons ensuite cette relation en montrant que les algorithmes d'apprentissage Q sont plus efficaces que les algorithmes de critique d'acteur. Nous approfondissons ensuite cette relation en montrant comment un seul modèle peut être utilisé pour représenter à la fois une politique et les valeurs d'état softmax correspondantes, éliminant ainsi le besoin d'une critique séparée. L'évaluation expérimentale démontre que PCL surpasse de manière significative la critique d'acteur forte et les bases de l'apprentissage Q sur plusieurs benchmarks.

Remerciements

Nous remercions Rafael Cosman, Brendan O'Donoghue, Volodymyr Mnih, George Tucker, Irwan Bello et l'équipe de Google Brain pour leurs commentaires et discussions perspicaces.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !