Poste de recherche
Résumé
Le raisonnement à plusieurs niveaux d'abstraction temporelle est l'un des principaux attributs de l'intelligence. Dans l'apprentissage par renforcement, ce raisonnement est souvent modélisé par des parcours d'actions étendus dans le temps, appelés options. Les options permettent aux agents de faire des prédictions et d'opérer à différents niveaux d'abstraction dans un environnement. Néanmoins, les approches basées sur le cadre des options partent souvent de l'hypothèse qu'un ensemble raisonnable d'options est connu à l'avance. Lorsque ce n'est pas le cas, il n'y a pas de réponses définitives quant aux options à envisager. Dans cet article, nous soutenons que la représentation du successeur, qui code les états en fonction du modèle de visite de l'état qui les suit, peut être considérée comme un substrat naturel pour la découverte et l'utilisation d'abstractions temporelles. Pour étayer notre propos, nous présentons une vue d'ensemble des résultats récents, montrant comment la représentation du successeur peut être utilisée pour découvrir des options qui facilitent soit l'exploration étendue dans le temps, soit la planification. Nous considérons ces résultats comme des instanciations d'un cadre général pour la découverte d'options dans lequel la représentation de l'agent est utilisée pour identifier des options utiles, qui sont ensuite utilisées pour améliorer davantage sa représentation. Il en résulte un cycle vertueux, sans fin, dans lequel la représentation et les options sont constamment affinées l'une par rapport à l'autre. Au-delà de la découverte d'options proprement dite, nous examinons également comment la représentation du successeur nous permet d'augmenter un ensemble d'options en une contrepartie combinatoirement large sans apprentissage supplémentaire. Cet objectif est atteint grâce à la combinaison d'options précédemment apprises. Notre évaluation empirique se concentre sur les options découvertes pour l'exploration étendue dans le temps et sur l'utilisation de la représentation du successeur pour les combiner. Nos résultats mettent en lumière les décisions de conception importantes impliquées dans la définition des options et démontrent la synergie des différentes méthodes basées sur la représentation du successeur, telles que les options propres et le clavier d'options.
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.