Poste de recherche
Les systèmes de recommandation sont souvent confrontés à des compromis d'exploration-exploitation : le système ne peut apprendre l'intérêt de nouvelles options qu'en les recommandant à un utilisateur. De tels systèmes peuvent donc être modélisés comme des bandits à plusieurs bras ; cependant, les utilisateurs sont intéressés et ne peuvent pas être obligés de suivre les recommandations. Nous nous demandons si l'exploration peut néanmoins être effectuée d'une manière qui respecte scrupuleusement les intérêts des agents, c'est-à-dire par un système qui agit comme un fiduciaire. Plus formellement, nous introduisons un modèle dans lequel un système de recommandation est confronté à un compromis d'exploration-exploitation sous la contrainte qu'il ne peut jamais recommander une action dont il sait qu'elle donne une récompense inférieure à celle qu'un agent obtiendrait s'il agissait seul. Notre principale contribution est un résultat positif : un algorithme de recommandation asymptotiquement optimal, compatible avec les incitations et ex ante individuellement rationnel.
15 février 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Adam White, boursier Amii et titulaire de la chaire d'IA de l'ICRA au Canada : Apprentissage des traces emphatiques attendues pour le RL profond
27 septembre 2021
Poste de recherche
13 juillet 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.