Poste de recherche
Cet article étudie l'apprentissage par renforcement (RL) basé sur un modèle pour la minimisation des regrets. Nous nous concentrons sur l'apprentissage par renforcement épisodique à horizon fini où le modèle de transition P appartient à une famille connue de modèles P, dont un cas particulier est celui où les modèles de P prennent la forme de mélanges linéaires : Pθ = Pd i=1 θiPi . Nous proposons un algorithme de RL à base de modèles qui repose sur le principe d'optimisme : à chaque épisode, on construit l'ensemble des modèles qui sont " cohérents " avec les données recueillies. Le critère de cohérence est basé sur l'erreur quadratique totale que le modèle encourt dans la tâche de prédiction des valeurs d'état, telle que déterminée par la dernière estimation de valeur le long des transitions. La fonction de valeur suivante est ensuite choisie en résolvant le problème de planification optimiste avec l'ensemble des modèles construits. Nous dérivons une borne sur le regret qui, dans le cas particulier des mélanges linéaires, prend la forme O˜(d √ H3T), où H, T et d sont l'horizon, le nombre total d'étapes et la dimension de θ, respectivement. En particulier, cette borne de regret est indépendante du nombre total d'états ou d'actions, et est proche d'une borne inférieure Ω(√ HdT). Pour une famille de modèles générale P, la borne de regret est dérivée en fonction de la dimension d'Eluder.
Remerciements
Csaba Szepesvari remercie le Programme des chaires d'IA de l'ICAR, l'Amii et le CRSNG pour leur financement. Mengdi Wang remercie la National Science Foundation (NSF) des États-Unis pour sa subvention CMMI1653435, l'Air Force Office of Scientific Research (AFOSR) pour sa subvention FA9550-19-1-020, et le C3.ai DTI.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.