Poste de recherche

Echantillonnage par importance pondérée pour l'apprentissage hors politique avec approximation de la fonction linéaire

L'échantillonnage par importance est une composante essentielle des algorithmes d'apprentissage par renforcement sans modèle hors politique. Cependant, sa variante la plus efficace, l'échantillonnage par importance pondérée, ne se prête pas facilement à l'approximation de fonctions et, pour cette raison, elle n'est pas utilisée dans les algorithmes d'apprentissage par renforcement sans politique. Dans cet article, nous franchissons deux étapes pour combler cette lacune. Premièrement, nous montrons que l'échantillonnage par importance pondérée peut être considéré comme un cas particulier de pondération de l'erreur des échantillons d'entraînement individuels, et que cette pondération présente des avantages théoriques et empiriques similaires à ceux de l'échantillonnage par importance pondérée. Ensuite, nous montrons que ces avantages s'étendent à une nouvelle version d'échantillonnage par importance pondérée de offpolicy LSTD(). Nous montrons empiriquement que notre nouvel algorithme WIS-LSTD() peut aboutir à une convergence beaucoup plus rapide et fiable que l'algorithme conventionnel off-policy LSTD() (Yu 2010, Bertsekas & Yu 2009).

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !