Poste de recherche

Échantillonnage Meta-Thompson

Résumé :

L'exploration efficace dans les bandits est un problème fondamental d'apprentissage en ligne. Nous proposons une variante de l'échantillonnage de Thompson qui apprend à mieux explorer lorsqu'elle interagit avec des instances de bandits tirées d'une antériorité inconnue. L'algorithme méta-apprend le préalable et nous l'appelons donc MetaTS. Nous proposons plusieurs implémentations efficaces de MetaTS et l'analysons dans les bandits gaussiens. Notre analyse montre l'avantage du méta-apprentissage et présente un intérêt plus large, car nous déduisons une nouvelle limite de regret de Bayes dépendant de l'antériorité pour l'échantillonnage de Thompson. Notre théorie est complétée par une évaluation empirique, qui montre que MetaTS s'adapte rapidement à l'antériorité inconnue.

Échantillonnage Meta-Thompson

Résumé :

Derniers documents de recherche

UCTransNet : Repenser les connexions de saut dans U-Net d'une perspective de canal avec Transformer

Habitat-Matterport 3D Dataset (HM3D) : 1000 environnements 3D à grande échelle pour l'IA incarnée

Roominoes : Génération de nouveaux plans d'étage 3D à partir de pièces 3D existantes

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle