Poste de recherche

Évaluation hors politique via le Lagrangien régularisé

La famille d'estimateurs de correction de distribution (DICE) récemment proposée a fait progresser l'état de l'art en matière d'évaluation hors politique à partir de données agnostiques sur le comportement. Bien que ces estimateurs effectuent tous une forme de correction de distribution stationnaire, ils sont issus de dérivations et de fonctions objectives différentes. Dans cet article, nous unifions ces estimateurs en tant que Lagrangiens régularisés du même programme linéaire. Cette unification nous permet d'élargir l'espace des estimateurs DICE à de nouvelles alternatives qui démontrent une meilleure performance. Plus important encore, en analysant l'espace élargi des estimateurs à la fois mathématiquement et empiriquement, nous constatons que les solutions duales offrent une plus grande flexibilité pour naviguer dans le compromis entre la stabilité de l'optimisation et le biais d'estimation, et fournissent généralement des estimations supérieures dans la pratique.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !