Poste de recherche
Les méthodes basées sur la valeur pour l'apprentissage par renforcement manquent de moyens généralement applicables pour dériver le comportement d'une fonction de valeur. De nombreuses approches impliquent une itération approximative des valeurs (par exemple, l'apprentissage Q), et une action avide par rapport aux estimations avec un degré arbitraire d'entropie pour s'assurer que l'espace d'état est suffisamment exploré. Le comportement basé sur l'avidité explicite suppose que les valeurs reflètent celles de la politique \textit{some}, par rapport à laquelle la politique avide sera une amélioration. Cependant, l'itération des valeurs peut produire des fonctions de valeur qui ne correspondent pas à la politique de \textit{quelque} chose. Ceci est particulièrement pertinent dans le régime d'approximation de fonction, lorsque la vraie fonction de valeur ne peut pas être parfaitement représentée. Dans ce travail, nous explorons l'utilisation de \textit{évaluation de politique inverse}, le processus de résolution d'une politique probable étant donné une fonction de valeur, pour dériver le comportement d'une fonction de valeur. Nous fournissons des résultats théoriques et empiriques pour montrer que l'évaluation de politique inverse, combinée avec un algorithme d'itération de valeur approximative, est une méthode réalisable pour le contrôle basé sur la valeur.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.