Poste de recherche

Méta-apprentissage différentiable dans les bandits contextuels

Résumé

La plupart des politiques de bandits sont conçues soit pour minimiser le regret dans n'importe quelle instance du problème, en faisant très peu d'hypothèses sur l'environnement sous-jacent, soit dans un sens bayésien, en supposant une distribution préalable sur les paramètres de l'environnement. Les premières sont souvent trop conservatrices dans des contextes pratiques, tandis que les secondes requièrent des hypothèses qui sont difficiles à vérifier en pratique. Nous étudions les problèmes de bandit qui se situent entre ces deux extrêmes, où l'agent d'apprentissage a accès à des instances de bandit échantillonnées à partir d'une distribution antérieure inconnue et vise à obtenir une récompense élevée en moyenne sur les instances de bandit tirées de . Ce cadre est d'une importance particulière car il jette les bases du méta-apprentissage des politiques de bandits et reflète des hypothèses plus réalistes dans de nombreux domaines pratiques. Nous proposons l'utilisation de politiques de bandits paramétrées qui sont différentiables et peuvent être optimisées en utilisant des gradients de politique. Cela fournit un cadre largement applicable et facile à mettre en œuvre. Nous dérivons des gradients de récompense qui reflètent la structure des problèmes et des politiques de bandit, pour des paramètres contextuels et non contextuels, et nous proposons un certain nombre de politiques intéressantes qui sont à la fois différentiables et à faible regret. Nos contributions algorithmiques et théoriques sont soutenues par des expériences approfondies qui montrent l'importance de la soustraction de la ligne de base, les biais appris, et l'aspect pratique de notre approche sur une série de problèmes.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !