Poste de recherche
Résumé :
Le gradient de politique (PG) donne naissance à une riche classe de méthodes d'apprentissage par renforcement (RL). Récemment, une tendance émerge pour accélérer les méthodes PG existantes telles que REINFORCE par des techniques de réduction de la variance. Cependant, toutes les méthodes PG existantes de réduction de la variance dépendent fortement d'une hypothèse de poids d'importance non vérifiable faite pour chaque itération des algorithmes. Dans cet article, un mécanisme simple de troncature du gradient est proposé pour résoudre ce problème. De plus, nous concevons une méthode de gradient de politique à variance réduite stochastique incrémentielle tronquée (TSIVR-PG), qui est capable de maximiser non seulement une somme cumulative de récompenses mais aussi une fonction d'utilité générale sur la distribution des visites à long terme d'une politique. Nous montrons une complexité d'échantillon ̃ (ϵ-3) pour TSIVR-PG afin de trouver une politique ϵ-stationnaire. En supposant la surparamétrisation de la politique et en exploitant la convexité cachée du problème, nous montrons en outre que TSIVR-PG converge vers une politique ϵ-optimale globale avec ̃ (ϵ-2) échantillons.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.