Poste de recherche
Résumé: L'échantillonnage hors politique et le rejeu d'expérience sont essentiels pour améliorer l'efficacité de l'échantillonnage et la mise à l'échelle des méthodes d'apprentissage par différence temporelle sans modèle. Lorsqu'elle est associée à une approximation de fonction, comme les réseaux neuronaux, cette combinaison est connue sous le nom de triade mortelle et est potentiellement instable. Récemment, il a été démontré que la stabilité et de bonnes performances à l'échelle peuvent être obtenues en combinant des pondérations emphatiques et des mises à jour à plusieurs étapes. Cependant, cette approche est généralement limitée à l'échantillonnage de trajectoires complètes afin de calculer la pondération emphatique requise. Dans cet article, nous étudions comment combiner les pondérations emphatiques avec des données non séquentielles, hors ligne, échantillonnées à partir d'un tampon de relecture. Nous développons une pondération emphatique à plusieurs étapes qui peut être combinée avec la relecture, et un algorithme d'apprentissage TD à n étapes inversé dans le temps pour apprendre la pondération emphatique requise. Nous montrons que ces pondérations d'état réduisent la variance par rapport aux approches précédentes, tout en fournissant des garanties de convergence. Nous avons testé l'approche à l'échelle sur des jeux vidéo Atari 2600 et observé que le nouvel agent X-ETD(n) s'est amélioré par rapport aux agents de base, soulignant à la fois l'évolutivité et l'applicabilité de notre approche.
3 mars 2023
Poste de recherche
26 février 2023
Poste de recherche
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.