Évaluation hors politique via le Lagrangien régularisé

La famille d'estimateurs de correction de distribution (DICE) récemment proposée a fait progresser l'état de l'art en matière d'évaluation hors politique à partir de données agnostiques sur le comportement. Bien que ces estimateurs effectuent tous une forme de correction de distribution stationnaire, ils sont issus de dérivations et de fonctions objectives différentes. Dans cet article, nous unifions ces estimateurs en tant que Lagrangiens régularisés du même programme linéaire. Cette unification nous permet d'élargir l'espace des estimateurs DICE à de nouvelles alternatives qui démontrent une meilleure performance. Plus important encore, en analysant l'espace élargi des estimateurs à la fois mathématiquement et empiriquement, nous constatons que les solutions duales offrent une plus grande flexibilité pour naviguer dans le compromis entre la stabilité de l'optimisation et le biais d'estimation, et fournissent généralement des estimations supérieures dans la pratique.

Évaluation hors politique via le Lagrangien régularisé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle