Méthodes de différences temporelles à horizon fixe pour l'apprentissage par renforcement stable

Résumé

Nous explorons les méthodes de différence temporelle (TD) à horizon fixe, des algorithmes d'apprentissage par renforcement pour un nouveau type de fonction de valeur qui prédit la somme des récompenses sur un nombre fixe de pas de temps futurs. Pour apprendre la fonction de valeur pour l'horizon h, ces algorithmes s'appuient sur la fonction de valeur pour l'horizon h-1, ou un horizon plus court. Étant donné qu'aucune fonction de valeur ne s'amorce à partir d'elle-même, les méthodes à horizon fixe sont à l'abri des problèmes de stabilité qui affectent d'autres méthodes de TD hors politique utilisant l'approximation de fonction (également connues sous le nom de "triade fatale"). Bien que les méthodes à horizon fixe nécessitent le stockage de fonctions de valeur supplémentaires, cela donne à l'agent un pouvoir prédictif supplémentaire, tandis que la complexité supplémentaire peut être considérablement réduite par des mises à jour parallèles, des poids partagés et un bootstrapping en n étapes. Nous montrons comment utiliser les fonctions de valeur à horizon fixe pour résoudre les problèmes d'apprentissage par renforcement de manière compétitive avec des méthodes telles que l'apprentissage Q qui apprend des fonctions de valeur conventionnelles. Nous prouvons également la convergence des méthodes de différence temporelle à horizon fixe avec une approximation linéaire et générale des fonctions. Dans l'ensemble, nos résultats établissent les méthodes TD à horizon fixe comme un nouveau moyen viable d'éviter les problèmes de stabilité de la triade fatale.

Méthodes de différences temporelles à horizon fixe pour l'apprentissage par renforcement stable

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle