Poste de recherche

Sur la convergence et l'efficacité de l'échantillon de la méthode du gradient politique à variance réduite.

Résumé :

Le gradient de politique (PG) donne naissance à une riche classe de méthodes d'apprentissage par renforcement (RL). Récemment, une tendance émerge pour accélérer les méthodes PG existantes telles que REINFORCE par des techniques de réduction de la variance. Cependant, toutes les méthodes PG existantes de réduction de la variance dépendent fortement d'une hypothèse de poids d'importance non vérifiable faite pour chaque itération des algorithmes. Dans cet article, un mécanisme simple de troncature du gradient est proposé pour résoudre ce problème. De plus, nous concevons une méthode de gradient de politique à variance réduite stochastique incrémentielle tronquée (TSIVR-PG), qui est capable de maximiser non seulement une somme cumulative de récompenses mais aussi une fonction d'utilité générale sur la distribution des visites à long terme d'une politique. Nous montrons une complexité d'échantillon ̃ (ϵ-3) pour TSIVR-PG afin de trouver une politique ϵ-stationnaire. En supposant la surparamétrisation de la politique et en exploitant la convexité cachée du problème, nous montrons en outre que TSIVR-PG converge vers une politique ϵ-optimale globale avec ̃ (ϵ-2) échantillons.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !