Poste de recherche

Apprentissage multi-étapes hors politique sans ratios d'échantillonnage d'importance

Pour estimer les fonctions de valeur des politiques à partir de données exploratoires, la plupart des algorithmes d'apprentissage hors politique sans modèle reposent sur l'échantillonnage par importance, où l'utilisation de ratios d'échantillonnage par importance conduit souvent à des estimations avec une variance importante. Il est donc souhaitable d'apprendre le hors-politique sans utiliser les ratios. Cependant, un tel algorithme n'existe pas pour l'apprentissage multi-étapes avec approximation de fonction. Dans cet article, nous présentons le premier algorithme de ce type basé sur des mises à jour d'apprentissage en différence temporelle (TD). Nous montrons que l'utilisation explicite des ratios d'échantillonnage d'importance peut être éliminée en faisant varier la quantité de bootstrapping dans les mises à jour TD en fonction de l'action. Notre nouvel algorithme atteint la stabilité en utilisant une mise à jour TD basée sur le gradient à deux échelles de temps. Un algorithme antérieur basé sur la représentation par table de consultation, appelé Tree Backup, peut également être récupéré en utilisant l'amorçage en fonction de l'action, devenant ainsi un cas particulier de notre algorithme. Dans deux tâches difficiles hors politique, nous démontrons que notre algorithme est stable, qu'il évite efficacement le problème de la grande variance et qu'il peut être nettement plus performant que son homologue de pointe.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !