Poste de recherche

Pas de regrets pour avoir appris le Prieur dans Bandits

Résumé :

Nous proposons 𝙰𝚍𝚊𝚃𝚂, un algorithme d'échantillonnage de Thompson qui s'adapte séquentiellement aux tâches de bandit avec lesquelles il interagit. L'idée clé de 𝙰𝚍𝚊𝚃𝚂 est de s'adapter à une distribution préalable de tâche inconnue en maintenant une distribution sur ses paramètres. Lors de la résolution d'une tâche de bandit, cette incertitude est marginalisée et correctement prise en compte. 𝙰𝚍𝚊𝚃𝚂 est un algorithme entièrement bayésien qui peut être implémenté efficacement dans plusieurs classes de problèmes de bandits. Nous dérivons des bornes supérieures sur son regret de Bayes qui quantifient la perte due à l'ignorance de l'antériorité de la tâche, et nous montrons qu'elle est faible. Notre théorie est soutenue par des expériences, où 𝙰𝚍𝚊𝚃𝚂 surpasse les algorithmes antérieurs et fonctionne bien même dans des problèmes difficiles du monde réel.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !