Poste de recherche

La sélection de caractéristiques éparses rend l'apprentissage par renforcement par lots plus efficace en termes d'échantillons.

Résumé

Cet article présente une analyse statistique de l'apprentissage par renforcement (RL) par lots à haute dimension utilisant l'approximation de fonctions linéaires éparses. Lorsqu'il existe un grand nombre de caractéristiques candidates, notre résultat met en lumière le fait que les méthodes tenant compte de la dispersion peuvent rendre l'apprentissage par renforcement par lots plus efficace en termes d'échantillonnage. Nous considérons d'abord le problème de l'évaluation de la politique hors politique. Pour évaluer une nouvelle politique cible, nous analysons une méthode d'évaluation Q ajustée par Lasso et établissons une limite d'erreur à échantillon fini qui n'a pas de dépendance polynomiale sur la dimension ambiante. Pour réduire le biais du Lasso, nous proposons en outre un estimateur post-sélection de modèle qui applique l'évaluation Q ajustée aux caractéristiques sélectionnées par le Lasso de groupe. Sous une hypothèse supplémentaire de force du signal, nous dérivons une limite d'erreur plus nette dépendant de l'instance qui dépend d'une fonction de divergence mesurant le décalage de distribution entre la distribution des données et la mesure d'occupation de la politique cible. En outre, nous étudions l'itération Q ajustée par Lasso pour l'optimisation de la politique par lots et établissons une limite d'erreur à échantillon fini qui dépend du rapport entre le nombre de caractéristiques pertinentes et la valeur propre minimale restreinte de la covariance des données. Enfin, nous complétons les résultats par des bornes inférieures minimax pour l'évaluation/optimisation des politiques de données par lots qui correspondent presque à nos bornes supérieures. Les résultats suggèrent que le fait d'avoir des données bien conditionnées est crucial pour l'apprentissage de politiques de lots clairsemés.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !