Poste de recherche

Apprentissage par renforcement multi-étapes : Un algorithme unifié

L'unification d'idées algorithmiques apparemment disparates pour produire des algorithmes plus performants est un objectif de longue date dans l'apprentissage par renforcement. Comme exemple principal, TD(λ) unifie de manière élégante la prédiction de TD en une étape avec les méthodes de Monte Carlo grâce à l'utilisation de traces d'éligibilité et du paramètre trace-decay. Actuellement, il existe une multitude d'algorithmes qui peuvent être utilisés pour effectuer le contrôle de la TD, notamment Sarsa, Q-learning et Expected Sarsa. Ces méthodes sont souvent étudiées dans le cas d'une étape, mais elles peuvent être étendues à plusieurs étapes temporelles pour obtenir de meilleures performances. Chacun de ces algorithmes est apparemment distinct, et aucun ne domine les autres pour tous les problèmes. Dans cet article, nous étudions un nouvel algorithme action-valeur multi-étapes appelé Q(σ) qui unifie et généralise ces algorithmes existants, tout en les subsumant comme des cas particuliers. Un nouveau paramètre, σ, est introduit pour permettre de faire varier continuellement le degré d'échantillonnage effectué par l'algorithme à chaque étape au cours de sa sauvegarde, Sarsa existant à un extrême (échantillonnage complet), et Sarsa attendu existant à l'autre (espérance pure). Q(σ) est généralement applicable à l'apprentissage avec et sans politique, mais dans ce travail, nous nous concentrons sur les expériences dans le cas avec politique. Nos résultats montrent qu'une valeur intermédiaire de σ, qui donne lieu à un mélange des algorithmes existants, donne de meilleurs résultats que les deux extrêmes. Le mélange peut également être modifié de manière dynamique, ce qui permet d'obtenir des performances encore plus élevées.

Remerciements

Les auteurs remercient Vincent Zhang, Harm van Seijen, Doina Precup et Pierre-luc Bacon pour les idées et les discussions qui ont contribué aux résultats présentés dans cet article, ainsi que l'ensemble du groupe de recherche sur l'apprentissage par renforcement et l'intelligence artificielle, qui a fourni l'environnement nécessaire pour nourrir et soutenir cette recherche. Nous reconnaissons avec gratitude le financement d'Alberta Innovates - Technology Futures, de Google Deepmind et du Conseil de recherches en sciences naturelles et en génie du Canada.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !