Poste de recherche

Apprentissage par renforcement basé sur un modèle avec régression ciblée sur la valeur

Cet article étudie l'apprentissage par renforcement (RL) basé sur un modèle pour la minimisation des regrets. Nous nous concentrons sur l'apprentissage par renforcement épisodique à horizon fini où le modèle de transition P appartient à une famille connue de modèles P, dont un cas particulier est celui où les modèles de P prennent la forme de mélanges linéaires : Pθ = Pd i=1 θiPi . Nous proposons un algorithme de RL à base de modèles qui repose sur le principe d'optimisme : à chaque épisode, on construit l'ensemble des modèles qui sont " cohérents " avec les données recueillies. Le critère de cohérence est basé sur l'erreur quadratique totale que le modèle encourt dans la tâche de prédiction des valeurs d'état, telle que déterminée par la dernière estimation de valeur le long des transitions. La fonction de valeur suivante est ensuite choisie en résolvant le problème de planification optimiste avec l'ensemble des modèles construits. Nous dérivons une borne sur le regret qui, dans le cas particulier des mélanges linéaires, prend la forme O˜(d √ H3T), où H, T et d sont l'horizon, le nombre total d'étapes et la dimension de θ, respectivement. En particulier, cette borne de regret est indépendante du nombre total d'états ou d'actions, et est proche d'une borne inférieure Ω(√ HdT). Pour une famille de modèles générale P, la borne de regret est dérivée en fonction de la dimension d'Eluder.

Remerciements
Csaba Szepesvari remercie le Programme des chaires d'IA de l'ICAR, l'Amii et le CRSNG pour leur financement. Mengdi Wang remercie la National Science Foundation (NSF) des États-Unis pour sa subvention CMMI1653435, l'Air Force Office of Scientific Research (AFOSR) pour sa subvention FA9550-19-1-020, et le C3.ai DTI.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !