Poste de recherche
L'apprentissage d'un grand nombre de choses peut apporter de nombreux avantages à un système d'apprentissage par renforcement. Par exemple, l'apprentissage de nombreuses fonctions de valeur auxiliaires, en plus de l'optimisation de la récompense environnementale, semble améliorer l'exploration et l'apprentissage de la représentation. La question que nous abordons dans cet article est de savoir comment sculpter le flux d'expérience - comment adapter le comportement du système d'apprentissage - pour optimiser l'apprentissage d'une collection de fonctions de valeur. Une réponse simple est de calculer une récompense intrinsèque basée sur les statistiques de chaque apprenant auxiliaire, et d'utiliser l'apprentissage par renforcement pour maximiser cette récompense intrinsèque. Malheureusement, la mise en œuvre de cette idée simple s'est avérée difficile, et a donc fait l'objet de décennies d'études. On ne sait toujours pas laquelle des nombreuses mesures d'apprentissage possibles fonctionnerait bien dans un contexte d'apprentissage parallèle où la récompense environnementale est extrêmement rare ou absente. Dans cet article, nous étudions et comparons différents mécanismes de récompense intrinsèque dans un nouveau banc d'essai d'apprentissage parallèle de type bandit. Nous discutons de l'interaction entre la récompense et les apprenants prédictifs et soulignons l'importance des apprenants prédictifs introspectifs : ceux qui augmentent leur taux d'apprentissage lorsque le progrès est possible, et le diminuent lorsqu'il ne l'est pas. Nous fournissons une comparaison empirique complète de 14 récompenses différentes, y compris des idées bien connues de l'apprentissage par renforcement et de l'apprentissage actif. Nos résultats mettent en évidence un principe simple mais apparemment puissant : les récompenses intrinsèques basées sur la quantité d'apprentissage peuvent générer un comportement utile, si chaque apprenant individuel est introspectif.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.