Un cadre laplacien pour la découverte d'options dans l'apprentissage par renforcement.

Résumé

L'apprentissage de représentation et la découverte d'options sont deux des plus grands défis de l'apprentissage par renforcement (RL). Les fonctions de proto-valorisation (PVF) sont une approche bien connue pour l'apprentissage de représentation dans les MDPs. Dans cet article, nous abordons le problème de la découverte d'options en montrant comment les PVF définissent implicitement les options. Nous le faisons en introduisant des fonctions de récompense intrinsèques, les eigenpurposes, dérivées des représentations apprises. Les options découvertes à partir des buts propres traversent les directions principales de l'espace d'état. Elles sont utiles pour des tâches multiples car elles sont découvertes sans prendre en compte les récompenses de l'environnement. De plus, les différentes options agissent à différentes échelles de temps, ce qui les rend utiles pour l'exploration. Nous démontrons les caractéristiques des fonctions propres dans des domaines tabulaires traditionnels ainsi que dans des jeux Atari 2600.

Un cadre laplacien pour la découverte d'options dans l'apprentissage par renforcement.

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle