Poste de recherche

Exploration par optimisation dans le suivi partiel

Résumé

Nous fournissons un nouvel algorithme pour la surveillance partielle adversariale à k actions et à d résultats qui est adaptatif, intuitif et efficace. Le point fort est que pour les jeux non dégénérés localement observables, le regret minimax à n tours est limité par 6m k^(3/2) sqrt(n log(k)), où m est le nombre de signaux. Cela correspond à la meilleure limite supérieure connue en théorie de l'information, dérivée de la dualité minimax bayésienne. Le même algorithme obtient également un regret quasi-optimal pour les jeux à information complète, les jeux de bandits et les jeux globalement observables. Des bornes de probabilité élevées et des expériences simples sont également fournies.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !