Sur la convergence et l'efficacité de l'échantillon de la méthode du gradient politique à variance réduite.

Résumé :

Le gradient de politique (PG) donne naissance à une riche classe de méthodes d'apprentissage par renforcement (RL). Récemment, une tendance émerge pour accélérer les méthodes PG existantes telles que REINFORCE par des techniques de réduction de la variance. Cependant, toutes les méthodes PG existantes de réduction de la variance dépendent fortement d'une hypothèse de poids d'importance non vérifiable faite pour chaque itération des algorithmes. Dans cet article, un mécanisme simple de troncature du gradient est proposé pour résoudre ce problème. De plus, nous concevons une méthode de gradient de politique à variance réduite stochastique incrémentielle tronquée (TSIVR-PG), qui est capable de maximiser non seulement une somme cumulative de récompenses mais aussi une fonction d'utilité générale sur la distribution des visites à long terme d'une politique. Nous montrons une complexité d'échantillon ̃ (ϵ-3) pour TSIVR-PG afin de trouver une politique ϵ-stationnaire. En supposant la surparamétrisation de la politique et en exploitant la convexité cachée du problème, nous montrons en outre que TSIVR-PG converge vers une politique ϵ-optimale globale avec ̃ (ϵ-2) échantillons.

Sur la convergence et l'efficacité de l'échantillon de la méthode du gradient politique à variance réduite.

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle