Poste de recherche
Cet article présente une analyse statistique de l'apprentissage par renforcement (RL) par lots à haute dimension utilisant l'approximation de fonctions linéaires éparses. Lorsqu'il existe un grand nombre de caractéristiques candidates, notre résultat met en lumière le fait que les méthodes tenant compte de la dispersion peuvent rendre l'apprentissage par renforcement par lots plus efficace en termes d'échantillonnage. Nous considérons d'abord le problème de l'évaluation de la politique hors politique. Pour évaluer une nouvelle politique cible, nous analysons une méthode d'évaluation Q ajustée par Lasso et établissons une limite d'erreur à échantillon fini qui n'a pas de dépendance polynomiale sur la dimension ambiante. Pour réduire le biais du Lasso, nous proposons en outre un estimateur post-sélection de modèle qui applique l'évaluation Q ajustée aux caractéristiques sélectionnées par le Lasso de groupe. Sous une hypothèse supplémentaire de force du signal, nous dérivons une limite d'erreur plus nette dépendant de l'instance qui dépend d'une fonction de divergence mesurant le décalage de distribution entre la distribution des données et la mesure d'occupation de la politique cible. En outre, nous étudions l'itération Q ajustée par Lasso pour l'optimisation de la politique par lots et établissons une limite d'erreur à échantillon fini qui dépend du rapport entre le nombre de caractéristiques pertinentes et la valeur propre minimale restreinte de la covariance des données. Enfin, nous complétons les résultats par des bornes inférieures minimax pour l'évaluation/optimisation des politiques de données par lots qui correspondent presque à nos bornes supérieures. Les résultats suggèrent que le fait d'avoir des données bien conditionnées est crucial pour l'apprentissage de politiques de lots clairsemés.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.