Poste de recherche
Les algorithmes d'apprentissage par renforcement multi-étapes hors politique se composent d'algorithmes conservateurs et non-conservateurs : les premiers coupent activement les traces, tandis que les seconds ne le font pas. Récemment, Munos et al. (2016) ont prouvé la convergence des algorithmes conservateurs vers une fonction Q optimale. En revanche, les algorithmes non-conservatifs sont considérés comme peu sûrs et n'ont qu'une garantie théorique limitée, voire nulle. Néanmoins, des études récentes ont montré que les algorithmes non-conservatifs surpassent empiriquement les algorithmes conservateurs. Motivés par les résultats empiriques et le manque de théorie, nous effectuons des analyses théoriques de Q(λ) de Peng, un exemple représentatif des algorithmes non-conservatifs. Nous prouvons qu'il converge également vers une politique optimale à condition que la politique de comportement suive lentement une politique avide d'une manière similaire à l'itération de la politique conservatrice. Un tel résultat a été conjecturé comme vrai mais n'a pas été prouvé. Nous expérimentons également la Q(λ) de Peng dans des tâches complexes de contrôle continu, confirmant que la Q(λ) de Peng surpasse souvent les algorithmes conservateurs malgré sa simplicité. Ces résultats indiquent que le Q(λ) de Peng, que l'on croyait peu sûr, est un algorithme théoriquement solide et pratiquement efficace.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.