Méthode de gradient de politique variationnelle pour l'apprentissage par renforcement avec des utilités générales

Ces dernières années, les systèmes d'apprentissage par renforcement dont les objectifs généraux vont au-delà de la somme cumulée des récompenses ont gagné en popularité, notamment dans les problèmes sous contraintes, l'exploration et l'action sur les expériences antérieures. Dans cet article, nous considérons l'optimisation des politiques dans les problèmes de décision de Markov, où l'objectif est une fonction d'utilité générale de la mesure d'occupation état-action, qui subsume plusieurs des exemples susmentionnés comme des cas particuliers. Une telle généralité invalide l'équation de Bellman. Comme cela signifie que la programmation dynamique ne fonctionne plus, nous nous concentrons sur la recherche directe de politiques. Analogiquement au théorème du gradient de politique \cite{sutton2000policy} disponible pour la RL avec des récompenses cumulatives, nous dérivons un nouveau théorème du gradient de politique variationnel pour la RL avec des utilités générales, qui établit que le gradient peut être obtenu comme la solution d'un problème stochastique de point selle impliquant le dual de Fenchel de la fonction d'utilité. Nous développons un algorithme d'estimation du gradient de Monte Carlo variationnel pour calculer le gradient de la politique sur la base d'échantillons de chemins. De plus, nous prouvons que le schéma variationnel du gradient de politique converge globalement vers la politique optimale pour l'objectif général, et nous établissons également son taux de convergence qui correspond ou améliore le taux de convergence disponible dans le cas de RL avec récompenses cumulatives.

Méthode de gradient de politique variationnelle pour l'apprentissage par renforcement avec des utilités générales

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle