Poste de recherche

Évaluation inverse de la politique pour la prise de décision séquentielle basée sur la valeur

Résumé

Les méthodes basées sur la valeur pour l'apprentissage par renforcement manquent de moyens généralement applicables pour dériver le comportement d'une fonction de valeur. De nombreuses approches impliquent une itération approximative des valeurs (par exemple, l'apprentissage Q), et une action avide par rapport aux estimations avec un degré arbitraire d'entropie pour s'assurer que l'espace d'état est suffisamment exploré. Le comportement basé sur l'avidité explicite suppose que les valeurs reflètent celles de la politique \textit{some}, par rapport à laquelle la politique avide sera une amélioration. Cependant, l'itération des valeurs peut produire des fonctions de valeur qui ne correspondent pas à la politique de \textit{quelque} chose. Ceci est particulièrement pertinent dans le régime d'approximation de fonction, lorsque la vraie fonction de valeur ne peut pas être parfaitement représentée. Dans ce travail, nous explorons l'utilisation de \textit{évaluation de politique inverse}, le processus de résolution d'une politique probable étant donné une fonction de valeur, pour dériver le comportement d'une fonction de valeur. Nous fournissons des résultats théoriques et empiriques pour montrer que l'évaluation de politique inverse, combinée avec un algorithme d'itération de valeur approximative, est une méthode réalisable pour le contrôle basé sur la valeur.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !