Poste de recherche
Nous étudions l'évaluation hors-politique à haute confiance et agnostique du comportement dans l'apprentissage par renforcement, où l'objectif est d'estimer un intervalle de confiance sur la valeur d'une politique cible, en ayant seulement accès à un ensemble de données d'expérience statiques collectées par des politiques de comportement inconnues. En partant d'une intégration dans l'espace des fonctions de la formulation du programme linéaire de la fonction Q, nous obtenons un problème d'optimisation avec des contraintes d'équation d'estimation généralisées. En appliquant la méthode de vraisemblance empirique généralisée au Lagrangien résultant, nous proposons CoinDICE, un algorithme nouveau et efficace pour le calcul des intervalles de confiance. Théoriquement, nous prouvons que les intervalles de confiance obtenus sont valides, à la fois dans les régimes asymptotique et d'échantillon fini. Empiriquement, nous montrons dans une variété de benchmarks que les estimations des intervalles de confiance sont plus serrées et plus précises que les méthodes existantes.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.