Apprentissage continu des tâches auxiliaires

Résumé :

L'apprentissage de tâches auxiliaires, telles que des prédictions multiples sur le monde, peut apporter de nombreux avantages aux systèmes d'apprentissage par renforcement. Une variété d'algorithmes d'apprentissage hors politique ont été développés pour apprendre de telles prédictions, mais il y a encore peu de travaux sur la façon d'adapter le comportement pour recueillir des données utiles pour ces prédictions hors politique. Dans ce travail, nous étudions un système d'apprentissage par renforcement conçu pour apprendre une collection de tâches auxiliaires, avec une politique de comportement apprenant à prendre des mesures pour améliorer ces prédictions auxiliaires. Nous soulignons la non-stationnarité inhérente à ce problème d'apprentissage continu de tâches auxiliaires, tant pour les apprenants de prédictions que pour l'apprenant de comportement. Nous développons un algorithme basé sur les caractéristiques des successeurs qui facilite le suivi en cas de récompenses non stationnaires, et nous prouvons que la séparation entre l'apprentissage des caractéristiques des successeurs et des récompenses permet d'améliorer le taux de convergence. Nous menons une étude approfondie sur le système d'apprentissage multi-prédiction qui en résulte.

Apprentissage continu des tâches auxiliaires

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle