Poste de recherche

Une approche emphatique du problème de l'apprentissage par différence temporelle hors politique

Dans cet article, nous présentons l'idée d'améliorer les performances des algorithmes d'apprentissage paramétriques à différence temporelle (TD) en accentuant ou en atténuant sélectivement leurs mises à jour à différents pas de temps. En particulier, nous montrons qu'en variant l'accentuation des mises à jour de TD(γ) linéaire d'une manière particulière, sa mise à jour attendue devient stable dans le cadre d'un apprentissage hors politique. Les seules méthodes antérieures de TD sans modèle qui y parviennent avec un calcul par étape linéaire dans le nombre de paramètres d'approximation de la fonction sont la famille de méthodes de gradient-TD comprenant TDC, GTD(γ) et GQ(λ). Par rapport à ces méthodes, notre TD(λ) emphatique est plus simple et plus facile à utiliser ; elle n'a qu'un seul vecteur de paramètres appris et un seul paramètre de taille de pas. Notre traitement comprend des fonctions générales d'actualisation et de bootstrapping dépendant de l'état, ainsi qu'un moyen de spécifier divers degrés d'intérêt pour l'évaluation précise de différents états.

Remerciements

Les auteurs remercient Hado van Hasselt, Doina Precup, Huizhen Yu, Susan Murphy et Brendan Bennett pour les idées et les discussions qui ont contribué aux résultats présentés dans cet article, ainsi que l'ensemble du groupe de recherche sur l'apprentissage par renforcement et l'intelligence artificielle qui a fourni l'environnement nécessaire pour nourrir et soutenir cette recherche. Nous sommes reconnaissants du financement accordé par Alberta Innovates - Technology Futures et par le Conseil de recherches en sciences naturelles et en génie du Canada.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !