Poste de recherche
L'apprentissage de représentation et la découverte d'options sont deux des plus grands défis de l'apprentissage par renforcement (RL). Les fonctions de proto-valorisation (PVF) sont une approche bien connue pour l'apprentissage de représentation dans les MDPs. Dans cet article, nous abordons le problème de la découverte d'options en montrant comment les PVF définissent implicitement les options. Nous le faisons en introduisant des fonctions de récompense intrinsèques, les eigenpurposes, dérivées des représentations apprises. Les options découvertes à partir des buts propres traversent les directions principales de l'espace d'état. Elles sont utiles pour des tâches multiples car elles sont découvertes sans prendre en compte les récompenses de l'environnement. De plus, les différentes options agissent à différentes échelles de temps, ce qui les rend utiles pour l'exploration. Nous démontrons les caractéristiques des fonctions propres dans des domaines tabulaires traditionnels ainsi que dans des jeux Atari 2600.
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.