Poste de recherche

Apprentissage continu des tâches auxiliaires

Résumé :

L'apprentissage de tâches auxiliaires, telles que des prédictions multiples sur le monde, peut apporter de nombreux avantages aux systèmes d'apprentissage par renforcement. Une variété d'algorithmes d'apprentissage hors politique ont été développés pour apprendre de telles prédictions, mais il y a encore peu de travaux sur la façon d'adapter le comportement pour recueillir des données utiles pour ces prédictions hors politique. Dans ce travail, nous étudions un système d'apprentissage par renforcement conçu pour apprendre une collection de tâches auxiliaires, avec une politique de comportement apprenant à prendre des mesures pour améliorer ces prédictions auxiliaires. Nous soulignons la non-stationnarité inhérente à ce problème d'apprentissage continu de tâches auxiliaires, tant pour les apprenants de prédictions que pour l'apprenant de comportement. Nous développons un algorithme basé sur les caractéristiques des successeurs qui facilite le suivi en cas de récompenses non stationnaires, et nous prouvons que la séparation entre l'apprentissage des caractéristiques des successeurs et des récompenses permet d'améliorer le taux de convergence. Nous menons une étude approfondie sur le système d'apprentissage multi-prédiction qui en résulte.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !