Poste de recherche

Méta-apprentissage différentiable des politiques de bandits

Résumé

Les politiques d'exploration dans les bandits bayésiens maximisent la récompense moyenne sur les instances du problème tirées d'une certaine distribution P. Dans ce travail, nous apprenons de telles politiques pour une distribution P inconnue en utilisant des échantillons de P. Notre approche est une forme de méta-apprentissage et exploite les propriétés de P sans faire de fortes hypothèses sur sa forme. Pour ce faire, nous paramétrons nos politiques de manière différentiable et les optimisons par des gradients de politique, une approche agréablement générale et facile à mettre en œuvre. Nous dérivons des estimateurs de gradient efficaces et proposons de nouvelles techniques de réduction de la variance. Nous analysons et expérimentons également diverses classes de politiques de bandits, y compris les réseaux neuronaux et une nouvelle politique softmax. Cette dernière présente des garanties de regret et constitue un point de départ naturel pour notre optimisation. Nos expériences montrent la polyvalence de notre approche. Nous observons également que les politiques de réseaux neuronaux peuvent apprendre des biais implicites exprimés uniquement par les instances échantillonnées.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !