Poste de recherche

Adapter le comportement par la récompense intrinsèque : Une enquête et une étude empirique

L'apprentissage d'un grand nombre de choses peut apporter de nombreux avantages à un système d'apprentissage par renforcement. Par exemple, l'apprentissage de nombreuses fonctions de valeur auxiliaires, en plus de l'optimisation de la récompense environnementale, semble améliorer l'exploration et l'apprentissage de la représentation. La question que nous abordons dans cet article est de savoir comment sculpter le flux d'expérience - comment adapter le comportement du système d'apprentissage - pour optimiser l'apprentissage d'une collection de fonctions de valeur. Une réponse simple est de calculer une récompense intrinsèque basée sur les statistiques de chaque apprenant auxiliaire, et d'utiliser l'apprentissage par renforcement pour maximiser cette récompense intrinsèque. Malheureusement, la mise en œuvre de cette idée simple s'est avérée difficile, et a donc fait l'objet de décennies d'études. On ne sait toujours pas laquelle des nombreuses mesures d'apprentissage possibles fonctionnerait bien dans un contexte d'apprentissage parallèle où la récompense environnementale est extrêmement rare ou absente. Dans cet article, nous étudions et comparons différents mécanismes de récompense intrinsèque dans un nouveau banc d'essai d'apprentissage parallèle de type bandit. Nous discutons de l'interaction entre la récompense et les apprenants prédictifs et soulignons l'importance des apprenants prédictifs introspectifs : ceux qui augmentent leur taux d'apprentissage lorsque le progrès est possible, et le diminuent lorsqu'il ne l'est pas. Nous fournissons une comparaison empirique complète de 14 récompenses différentes, y compris des idées bien connues de l'apprentissage par renforcement et de l'apprentissage actif. Nos résultats mettent en évidence un principe simple mais apparemment puissant : les récompenses intrinsèques basées sur la quantité d'apprentissage peuvent générer un comportement utile, si chaque apprenant individuel est introspectif.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !