Poste de recherche
L'unification d'idées algorithmiques apparemment disparates pour produire des algorithmes plus performants est un objectif de longue date dans l'apprentissage par renforcement. Comme exemple principal, TD(λ) unifie de manière élégante la prédiction de TD en une étape avec les méthodes de Monte Carlo grâce à l'utilisation de traces d'éligibilité et du paramètre trace-decay. Actuellement, il existe une multitude d'algorithmes qui peuvent être utilisés pour effectuer le contrôle de la TD, notamment Sarsa, Q-learning et Expected Sarsa. Ces méthodes sont souvent étudiées dans le cas d'une étape, mais elles peuvent être étendues à plusieurs étapes temporelles pour obtenir de meilleures performances. Chacun de ces algorithmes est apparemment distinct, et aucun ne domine les autres pour tous les problèmes. Dans cet article, nous étudions un nouvel algorithme action-valeur multi-étapes appelé Q(σ) qui unifie et généralise ces algorithmes existants, tout en les subsumant comme des cas particuliers. Un nouveau paramètre, σ, est introduit pour permettre de faire varier continuellement le degré d'échantillonnage effectué par l'algorithme à chaque étape au cours de sa sauvegarde, Sarsa existant à un extrême (échantillonnage complet), et Sarsa attendu existant à l'autre (espérance pure). Q(σ) est généralement applicable à l'apprentissage avec et sans politique, mais dans ce travail, nous nous concentrons sur les expériences dans le cas avec politique. Nos résultats montrent qu'une valeur intermédiaire de σ, qui donne lieu à un mélange des algorithmes existants, donne de meilleurs résultats que les deux extrêmes. Le mélange peut également être modifié de manière dynamique, ce qui permet d'obtenir des performances encore plus élevées.
Remerciements
Les auteurs remercient Vincent Zhang, Harm van Seijen, Doina Precup et Pierre-luc Bacon pour les idées et les discussions qui ont contribué aux résultats présentés dans cet article, ainsi que l'ensemble du groupe de recherche sur l'apprentissage par renforcement et l'intelligence artificielle, qui a fourni l'environnement nécessaire pour nourrir et soutenir cette recherche. Nous reconnaissons avec gratitude le financement d'Alberta Innovates - Technology Futures, de Google Deepmind et du Conseil de recherches en sciences naturelles et en génie du Canada.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.