Poste de recherche
La plupart des méthodes d'apprentissage par renforcement reposent sur l'hypothèse clé selon laquelle la dynamique de transition et les fonctions de récompense sont fixes, c'est-à-dire que le processus de décision de Markov (PDM) sous-jacent est stationnaire. Cependant, dans de nombreuses applications pratiques du monde réel, cette hypothèse est clairement violée.
Dans cet article, les auteurs discutent de la façon dont les méthodes actuelles peuvent avoir des limites inhérentes pour les MDP non stationnaires, et donc la recherche d'une politique qui est bonne pour le futur, MDP inconnu, exige de repenser le paradigme d'optimisation. Pour résoudre ce problème, ils développent une méthode qui s'appuie sur les idées du raisonnement contre-factuel et de l'ajustement des courbes pour rechercher de manière proactive une bonne politique future, sans jamais modéliser la non-stationnarité sous-jacente. L'efficacité de la méthode proposée est démontrée sur des problèmes motivés par des applications du monde réel.
Cet article a été publié lors de la 37e conférence internationale sur l'apprentissage automatique(ICML).
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.