Poste de recherche
Les problèmes de bandit et d'apprentissage par renforcement (RL) peuvent souvent être formulés comme des problèmes d'optimisation où le but est de maximiser la performance moyenne tout en n'ayant accès qu'à des estimations stochastiques du véritable gradient. Traditionnellement, la théorie de l'optimisation stochastique prédit que la dynamique d'apprentissage est régie par la courbure de la fonction de perte et le bruit des estimations du gradient. Dans cet article, nous démontrons que ce n'est pas le cas pour les problèmes de bandit et de RL. Pour que notre analyse puisse être interprétée à la lumière des PDM à étapes multiples, nous nous concentrons sur les techniques dérivées des principes d'optimisation stochastique (par exemple, le gradient de politique naturelle et EXP3) et nous montrons que certaines hypothèses standard de la théorie de l'optimisation sont violées dans ces problèmes. Nous présentons des résultats théoriques montrant que, au moins pour les problèmes de bandit, la courbure et le bruit ne sont pas suffisants pour expliquer la dynamique d'apprentissage et que des choix apparemment inoffensifs comme la ligne de base peuvent déterminer si un algorithme converge. Ces résultats théoriques correspondent à notre évaluation empirique, que nous étendons aux MDPs multi-états.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.