Poste de recherche

Exploration aléatoire dans l'apprentissage par renforcement avec approximation générale de la fonction de valeur

Résumé :

Nous proposons un algorithme d'apprentissage par renforcement sans modèle inspiré de l'algorithme populaire d'itération de valeur des moindres carrés aléatoires (RLSVI) ainsi que du principe d'optimisme. Contrairement aux approches existantes basées sur la borne de confiance supérieure (UCB), qui sont souvent difficiles à calculer, notre algorithme permet l'exploration en perturbant simplement les données d'apprentissage avec des bruits scalaires i.i.d. judicieusement choisis. Pour obtenir une estimation optimiste de la fonction de valeur sans recourir à un bonus de type UCB, nous introduisons une procédure d'échantillonnage de récompense optimiste. Lorsque les fonctions de valeur peuvent être représentées par une classe de fonctions F, notre algorithme atteint une limite de regret dans le pire des cas de O˜(poly(dEH)√T) où T est le temps écoulé, H est l'horizon de planification et dE est la dimension éludée de F. Dans le cadre linéaire, notre algorithme se réduit à LSVI-PHE, une variante de RLSVI, qui jouit d'un regret de O˜(d3H3√T). Nous complétons la théorie par une évaluation empirique sur des tâches d'exploration difficiles connues.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !