Poste de recherche

Évaluation et sélection confiantes de hors-police par pondération d'importance auto-normalisée

Résumé

Nous considérons l'évaluation de la politique hors contexte dans le cadre de bandits contextuels dans le but d'obtenir une stratégie robuste de sélection de la politique hors contexte, où la stratégie de sélection est évaluée en fonction de la valeur de la politique choisie dans un ensemble de politiques proposées (cibles). Nous proposons une nouvelle méthode pour calculer une borne inférieure sur la valeur d'une politique cible arbitraire compte tenu de certaines données enregistrées dans des bandits contextuels pour une couverture souhaitée. La limite inférieure est construite autour de l'estimateur dit de pondération d'importance auto-normalisée (SN). Elle combine l'utilisation d'une inégalité de queue semi-empirique Efron-Stein pour contrôler la concentration et l'inégalité de Harris pour contrôler le biais. La nouvelle approche est évaluée sur un certain nombre d'ensembles de données synthétiques et réelles et s'avère supérieure à ses principaux concurrents, tant en termes de rigueur des intervalles de confiance que de qualité des politiques choisies.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !