Poste de recherche

Méthode de gradient de politique variationnelle pour l'apprentissage par renforcement avec des utilités générales

Ces dernières années, les systèmes d'apprentissage par renforcement dont les objectifs généraux vont au-delà de la somme cumulée des récompenses ont gagné en popularité, notamment dans les problèmes sous contraintes, l'exploration et l'action sur les expériences antérieures. Dans cet article, nous considérons l'optimisation des politiques dans les problèmes de décision de Markov, où l'objectif est une fonction d'utilité générale de la mesure d'occupation état-action, qui subsume plusieurs des exemples susmentionnés comme des cas particuliers. Une telle généralité invalide l'équation de Bellman. Comme cela signifie que la programmation dynamique ne fonctionne plus, nous nous concentrons sur la recherche directe de politiques. Analogiquement au théorème du gradient de politique \cite{sutton2000policy} disponible pour la RL avec des récompenses cumulatives, nous dérivons un nouveau théorème du gradient de politique variationnel pour la RL avec des utilités générales, qui établit que le gradient peut être obtenu comme la solution d'un problème stochastique de point selle impliquant le dual de Fenchel de la fonction d'utilité. Nous développons un algorithme d'estimation du gradient de Monte Carlo variationnel pour calculer le gradient de la politique sur la base d'échantillons de chemins. De plus, nous prouvons que le schéma variationnel du gradient de politique converge globalement vers la politique optimale pour l'objectif général, et nous établissons également son taux de convergence qui correspond ou améliore le taux de convergence disponible dans le cas de RL avec récompenses cumulatives.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !