Unification de la spécification des tâches dans l'apprentissage par renforcement

Les tâches d'apprentissage par renforcement sont généralement spécifiées comme des processus de décision de Markov. Ce formalisme a connu un grand succès, bien que les spécifications couplent souvent la dynamique de l'environnement et l'objectif d'apprentissage. Ce manque de modularité peut compliquer la généralisation de la spécification de la tâche, ainsi qu'obscurcir les connexions entre les différents paramètres de la tâche, tels que l'épisodique et le continu. Dans ce travail, nous introduisons le formalisme de tâche RL, qui fournit une unification par le biais de constructions simples, y compris une généralisation de l'actualisation basée sur la transition. A travers une série d'exemples, nous démontrons la généralité et l'utilité de ce formalisme. Enfin, nous étendons les constructions d'apprentissage standard, notamment les opérateurs de Bellman, et nous étendons certains résultats théoriques fondamentaux, notamment les limites d'erreurs d'approximation. Dans l'ensemble, nous fournissons un formalisme bien compris et solide sur lequel on peut construire des résultats théoriques et simplifier l'utilisation et le développement d'algorithmes.

Unification de la spécification des tâches dans l'apprentissage par renforcement

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle