Poste de recherche
L'échantillonnage par importance est une composante essentielle des algorithmes d'apprentissage par renforcement sans modèle hors politique. Cependant, sa variante la plus efficace, l'échantillonnage par importance pondérée, ne se prête pas facilement à l'approximation de fonctions et, pour cette raison, elle n'est pas utilisée dans les algorithmes d'apprentissage par renforcement sans politique. Dans cet article, nous franchissons deux étapes pour combler cette lacune. Premièrement, nous montrons que l'échantillonnage par importance pondérée peut être considéré comme un cas particulier de pondération de l'erreur des échantillons d'entraînement individuels, et que cette pondération présente des avantages théoriques et empiriques similaires à ceux de l'échantillonnage par importance pondérée. Ensuite, nous montrons que ces avantages s'étendent à une nouvelle version d'échantillonnage par importance pondérée de offpolicy LSTD(). Nous montrons empiriquement que notre nouvel algorithme WIS-LSTD() peut aboutir à une convergence beaucoup plus rapide et fiable que l'algorithme conventionnel off-policy LSTD() (Yu 2010, Bertsekas & Yu 2009).
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.