Poste de recherche
Nous présentons des algorithmes d'apprentissage et de planification améliorés pour les MDP à récompense moyenne, y compris 1) le premier algorithme général de contrôle sans modèle hors politique prouvé-convergent sans états de référence, 2) le premier algorithme de prédiction sans modèle hors politique prouvé-convergent, et 3) les premiers algorithmes d'apprentissage qui convergent vers la fonction de valeur réelle plutôt que vers la fonction de valeur plus un décalage. Tous nos algorithmes sont basés sur l'utilisation de l'erreur de différence temporelle plutôt que l'erreur conventionnelle lors de la mise à jour de l'estimation de la récompense moyenne. Nos techniques de preuve sont basées sur celles d'Abounadi, Bertsekas et Borkar (2001). Empiriquement, nous montrons que l'utilisation de l'erreur de différence temporelle entraîne généralement un apprentissage plus rapide, et que le recours à un état de référence entraîne généralement un apprentissage plus lent et des risques de divergence. Tous nos algorithmes d'apprentissage sont entièrement en ligne, et tous nos algorithmes de planification sont entièrement incrémentaux.
Remerciements
Les auteurs ont bénéficié du soutien de DeepMind, du CRSNG et du CIFAR. Les auteurs souhaitent également remercier Vivek Borkar pour une discussion fructueuse sur plusieurs travaux connexes, ainsi que Huizhen Yu et Martha White pour leurs précieux commentaires lors des premières étapes du travail.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.