Poste de recherche

Échantillonnage asymptotiquement optimal dirigé par l'information

Résumé

Nous présentons un algorithme simple et efficace pour les bandits linéaires stochastiques avec un nombre fini d'actions, qui est asymptotiquement optimal et optimal dans le pire des cas en temps fini. L'approche est basée sur le cadre frequentiste d'échantillonnage dirigé par l'information (IDS), avec un substitut pour le gain d'information qui est informé par le problème d'optimisation qui définit la limite inférieure asymptotique. Notre analyse met en lumière la manière dont l'IDS équilibre le compromis entre le regret et l'information. De plus, nous découvrons un lien surprenant entre les méthodes primales-duales récemment proposées et l'algorithme IDS bayésien. Nous démontrons empiriquement que l'IDS est compétitif par rapport à l'UCB en temps fini, et peut être significativement meilleur dans le régime asymptotique.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !