Poste de recherche

Apprentissage et planification dans les processus de décision de Markov à récompense moyenne

Nous présentons des algorithmes d'apprentissage et de planification améliorés pour les MDP à récompense moyenne, y compris 1) le premier algorithme général de contrôle sans modèle hors politique prouvé-convergent sans états de référence, 2) le premier algorithme de prédiction sans modèle hors politique prouvé-convergent, et 3) les premiers algorithmes d'apprentissage qui convergent vers la fonction de valeur réelle plutôt que vers la fonction de valeur plus un décalage. Tous nos algorithmes sont basés sur l'utilisation de l'erreur de différence temporelle plutôt que l'erreur conventionnelle lors de la mise à jour de l'estimation de la récompense moyenne. Nos techniques de preuve sont basées sur celles d'Abounadi, Bertsekas et Borkar (2001). Empiriquement, nous montrons que l'utilisation de l'erreur de différence temporelle entraîne généralement un apprentissage plus rapide, et que le recours à un état de référence entraîne généralement un apprentissage plus lent et des risques de divergence. Tous nos algorithmes d'apprentissage sont entièrement en ligne, et tous nos algorithmes de planification sont entièrement incrémentaux.

Remerciements

Les auteurs ont bénéficié du soutien de DeepMind, du CRSNG et du CIFAR. Les auteurs souhaitent également remercier Vivek Borkar pour une discussion fructueuse sur plusieurs travaux connexes, ainsi que Huizhen Yu et Martha White pour leurs précieux commentaires lors des premières étapes du travail.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !