Poste de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Résumé

Le raisonnement à plusieurs niveaux d'abstraction temporelle est l'un des principaux attributs de l'intelligence. Dans l'apprentissage par renforcement, ce raisonnement est souvent modélisé par des parcours d'actions étendus dans le temps, appelés options. Les options permettent aux agents de faire des prédictions et d'opérer à différents niveaux d'abstraction dans un environnement. Néanmoins, les approches basées sur le cadre des options partent souvent de l'hypothèse qu'un ensemble raisonnable d'options est connu à l'avance. Lorsque ce n'est pas le cas, il n'y a pas de réponses définitives quant aux options à envisager. Dans cet article, nous soutenons que la représentation du successeur, qui code les états en fonction du modèle de visite de l'état qui les suit, peut être considérée comme un substrat naturel pour la découverte et l'utilisation d'abstractions temporelles. Pour étayer notre propos, nous présentons une vue d'ensemble des résultats récents, montrant comment la représentation du successeur peut être utilisée pour découvrir des options qui facilitent soit l'exploration étendue dans le temps, soit la planification. Nous considérons ces résultats comme des instanciations d'un cadre général pour la découverte d'options dans lequel la représentation de l'agent est utilisée pour identifier des options utiles, qui sont ensuite utilisées pour améliorer davantage sa représentation. Il en résulte un cycle vertueux, sans fin, dans lequel la représentation et les options sont constamment affinées l'une par rapport à l'autre. Au-delà de la découverte d'options proprement dite, nous examinons également comment la représentation du successeur nous permet d'augmenter un ensemble d'options en une contrepartie combinatoirement large sans apprentissage supplémentaire. Cet objectif est atteint grâce à la combinaison d'options précédemment apprises. Notre évaluation empirique se concentre sur les options découvertes pour l'exploration étendue dans le temps et sur l'utilisation de la représentation du successeur pour les combiner. Nos résultats mettent en lumière les décisions de conception importantes impliquées dans la définition des options et démontrent la synergie des différentes méthodes basées sur la représentation du successeur, telles que les options propres et le clavier d'options.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !