Poste de recherche

Méthodes de différences temporelles à horizon fixe pour l'apprentissage par renforcement stable

Résumé

Nous explorons les méthodes de différence temporelle (TD) à horizon fixe, des algorithmes d'apprentissage par renforcement pour un nouveau type de fonction de valeur qui prédit la somme des récompenses sur un nombre fixe de pas de temps futurs. Pour apprendre la fonction de valeur pour l'horizon h, ces algorithmes s'appuient sur la fonction de valeur pour l'horizon h-1, ou un horizon plus court. Étant donné qu'aucune fonction de valeur ne s'amorce à partir d'elle-même, les méthodes à horizon fixe sont à l'abri des problèmes de stabilité qui affectent d'autres méthodes de TD hors politique utilisant l'approximation de fonction (également connues sous le nom de "triade fatale"). Bien que les méthodes à horizon fixe nécessitent le stockage de fonctions de valeur supplémentaires, cela donne à l'agent un pouvoir prédictif supplémentaire, tandis que la complexité supplémentaire peut être considérablement réduite par des mises à jour parallèles, des poids partagés et un bootstrapping en n étapes. Nous montrons comment utiliser les fonctions de valeur à horizon fixe pour résoudre les problèmes d'apprentissage par renforcement de manière compétitive avec des méthodes telles que l'apprentissage Q qui apprend des fonctions de valeur conventionnelles. Nous prouvons également la convergence des méthodes de différence temporelle à horizon fixe avec une approximation linéaire et générale des fonctions. Dans l'ensemble, nos résultats établissent les méthodes TD à horizon fixe comme un nouveau moyen viable d'éviter les problèmes de stabilité de la triade fatale.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !