Poste de recherche

Un cadre laplacien pour la découverte d'options dans l'apprentissage par renforcement.

Résumé

L'apprentissage de représentation et la découverte d'options sont deux des plus grands défis de l'apprentissage par renforcement (RL). Les fonctions de proto-valorisation (PVF) sont une approche bien connue pour l'apprentissage de représentation dans les MDPs. Dans cet article, nous abordons le problème de la découverte d'options en montrant comment les PVF définissent implicitement les options. Nous le faisons en introduisant des fonctions de récompense intrinsèques, les eigenpurposes, dérivées des représentations apprises. Les options découvertes à partir des buts propres traversent les directions principales de l'espace d'état. Elles sont utiles pour des tâches multiples car elles sont découvertes sans prendre en compte les récompenses de l'environnement. De plus, les différentes options agissent à différentes échelles de temps, ce qui les rend utiles pour l'exploration. Nous démontrons les caractéristiques des fonctions propres dans des domaines tabulaires traditionnels ainsi que dans des jeux Atari 2600.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !