Poste de recherche
Ces dernières années, les systèmes d'apprentissage par renforcement dont les objectifs généraux vont au-delà de la somme cumulée des récompenses ont gagné en popularité, notamment dans les problèmes sous contraintes, l'exploration et l'action sur les expériences antérieures. Dans cet article, nous considérons l'optimisation des politiques dans les problèmes de décision de Markov, où l'objectif est une fonction d'utilité générale de la mesure d'occupation état-action, qui subsume plusieurs des exemples susmentionnés comme des cas particuliers. Une telle généralité invalide l'équation de Bellman. Comme cela signifie que la programmation dynamique ne fonctionne plus, nous nous concentrons sur la recherche directe de politiques. Analogiquement au théorème du gradient de politique \cite{sutton2000policy} disponible pour la RL avec des récompenses cumulatives, nous dérivons un nouveau théorème du gradient de politique variationnel pour la RL avec des utilités générales, qui établit que le gradient peut être obtenu comme la solution d'un problème stochastique de point selle impliquant le dual de Fenchel de la fonction d'utilité. Nous développons un algorithme d'estimation du gradient de Monte Carlo variationnel pour calculer le gradient de la politique sur la base d'échantillons de chemins. De plus, nous prouvons que le schéma variationnel du gradient de politique converge globalement vers la politique optimale pour l'objectif général, et nous établissons également son taux de convergence qui correspond ou améliore le taux de convergence disponible dans le cas de RL avec récompenses cumulatives.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.