Poste de recherche
Ce travail se concentre sur l'évaluation hors politique (OPE) avec approximation de fonction dans les processus de décision de Markov (PDM) non actualisés à horizon infini. Pour les PDM qui sont ergodiques et linéaires (c'est-à-dire où les récompenses et la dynamique sont linéaires dans certaines caractéristiques connues), nous fournissons la première limite d'erreur OPE en échantillon fini, étendant les résultats existants au-delà des cas épisodiques et actualisés. Dans un cadre plus général, lorsque la dynamique des caractéristiques est approximativement linéaire et pour des récompenses arbitraires, nous proposons une nouvelle approche pour estimer les distributions stationnaires avec une approximation de fonction. Nous formulons ce problème comme la recherche de la distribution d'entropie maximale soumise à la correspondance des attentes des caractéristiques dans le cadre de la dynamique empirique. Nous montrons qu'il en résulte une distribution de famille exponentielle dont les statistiques suffisantes sont les caractéristiques, parallèlement aux approches de l'entropie maximale dans l'apprentissage supervisé. Nous démontrons l'efficacité des approches OPE proposées dans plusieurs environnements.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.