Poste de recherche
Le rejeu d'expérience (ER) améliore l'efficacité des données des algorithmes d'apprentissage par renforcement (RL) hors politique en permettant à un agent de stocker et de réutiliser ses expériences passées dans un tampon de rejeu. Bien que de nombreuses techniques aient été proposées pour améliorer l'ER en biaisant la façon dont les expériences sont échantillonnées à partir de la mémoire tampon, elles n'ont jusqu'à présent pas pris en compte les stratégies de rafraîchissement des expériences à l'intérieur de la mémoire tampon. Dans ce travail, nous présentons Lucid Dreaming for Experience Replay (LiDER), un cadre conceptuellement nouveau qui permet de rafraîchir les expériences de relecture en tirant parti de la politique actuelle de l'agent. LiDER se compose de trois étapes : Premièrement, LiDER ramène un agent à un état antérieur. Ensuite, à partir de cet état, LiDER permet à l'agent d'exécuter une séquence d'actions en suivant sa politique actuelle - comme si l'agent "rêvait" du passé et pouvait essayer différents comportements pour rencontrer de nouvelles expériences dans le rêve. Troisièmement, LiDER stocke et réutilise la nouvelle expérience si elle s'est avérée meilleure que celle vécue précédemment par l'agent, c'est-à-dire pour rafraîchir sa mémoire. LiDER est conçu pour être facilement incorporé dans des algorithmes de RL multi-travailleurs, hors politique, qui utilisent ER ; nous présentons dans ce travail une étude de cas d'application de LiDER à un algorithme basé sur la critique d'acteur. Les résultats montrent que LiDER améliore constamment les performances par rapport à la ligne de base dans six jeux Atari 2600. Notre implémentation open-source de LiDER et les données utilisées pour générer tous les graphiques de ce travail sont disponibles à cette URL http.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.