Gamma-nets : Généraliser l'estimation de la valeur sur une échelle de temps

Résumé

L'abstraction temporelle est une exigence clé pour les agents qui prennent des décisions sur de longs horizons temporels, un défi fondamental pour l'apprentissage par renforcement. Il existe de nombreuses raisons pour lesquelles les estimations de valeur à plusieurs échelles de temps peuvent être utiles ; des travaux récents ont montré que les estimations de valeur à différentes échelles de temps peuvent servir de base à la création de fonctions d'actualisation plus avancées et à l'apprentissage de représentations. De plus, les prédictions à différentes échelles de temps permettent d'élargir le modèle de l'environnement d'un agent. Une approche prédictive intéressante dans un contexte d'apprentissage en ligne est la fonction de valeur générale (GVF), qui représente les modèles du monde d'un agent comme une collection de questions prédictives définies chacune par une politique, un signal à prédire et une échelle de temps de prédiction. Dans cet article, nous présentons Γ-nets, une méthode pour généraliser l'estimation de la fonction de valeur sur l'échelle de temps, permettant à une GVF donnée d'être entraînée et interrogée pour des échelles de temps arbitraires afin d'augmenter considérablement la capacité de prédiction et l'évolutivité d'un modèle basé sur la GVF. La clé de notre approche est d'utiliser l'échelle de temps comme l'une des entrées de l'estimateur de valeur. Par conséquent, la cible de prédiction pour toute échelle de temps est disponible à chaque pas de temps et nous sommes libres de nous entraîner sur un nombre quelconque d'échelles de temps. Nous présentons d'abord deux démonstrations en 1) prédisant une onde carrée et 2) prédisant des signaux sensorimoteurs sur un bras de robot en utilisant un approximateur de fonction linéaire. Ensuite, nous évaluons empiriquement Γ-nets dans le cadre de l'apprentissage par renforcement profond en utilisant l'évaluation de politiques sur un ensemble de jeux vidéo Atari. Nos résultats montrent que Γ-nets peut être efficace pour prédire des échelles de temps arbitraires, avec seulement un faible coût en termes de précision par rapport aux estimateurs d'apprentissage pour des échelles de temps fixes. Γ-nets fournit une méthode pour faire des prédictions précises et compactes à de nombreuses échelles de temps sans exiger une connaissance a priori de la tâche, ce qui en fait une contribution précieuse aux travaux en cours sur la planification basée sur des modèles, l'apprentissage par représentation et les algorithmes d'apprentissage tout au long de la vie.

Gamma-nets : Généraliser l'estimation de la valeur sur une échelle de temps

Résumé

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Identification des émotions de base et des émotions spécifiques à la dépression dans les tweets : Expériences de classification multi-label

STPOTR : Prédiction simultanée de la trajectoire et de la pose d'un humain à l'aide d'un transformateur non autorégressif pour le suivi d'un robot.

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle