Poste de recherche
Nous proposons un algorithme d'apprentissage par renforcement sans modèle inspiré de l'algorithme populaire d'itération de valeur des moindres carrés aléatoires (RLSVI) ainsi que du principe d'optimisme. Contrairement aux approches existantes basées sur la borne de confiance supérieure (UCB), qui sont souvent difficiles à calculer, notre algorithme permet l'exploration en perturbant simplement les données d'apprentissage avec des bruits scalaires i.i.d. judicieusement choisis. Pour obtenir une estimation optimiste de la fonction de valeur sans recourir à un bonus de type UCB, nous introduisons une procédure d'échantillonnage de récompense optimiste. Lorsque les fonctions de valeur peuvent être représentées par une classe de fonctions F, notre algorithme atteint une limite de regret dans le pire des cas de O˜(poly(dEH)√T) où T est le temps écoulé, H est l'horizon de planification et dE est la dimension éludée de F. Dans le cadre linéaire, notre algorithme se réduit à LSVI-PHE, une variante de RLSVI, qui jouit d'un regret de O˜(d3H3√T). Nous complétons la théorie par une évaluation empirique sur des tâches d'exploration difficiles connues.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.