Apprentissage emphatique par différence temporelle

Les algorithmes emphatiques sont des algorithmes d'apprentissage par différence temporelle qui modifient leur distribution d'état effective en accentuant et en désaccentuant sélectivement leurs mises à jour à différents pas de temps. Les travaux récents de Sutton, Mahmood et White (2015), et de Yu (2015) montrent qu'en faisant varier l'emphase d'une manière particulière, ces algorithmes deviennent stables et convergents dans le cadre d'un apprentissage hors politique avec approximation de fonction linéaire. Cet article sert de résumé unifié des résultats disponibles de ces deux travaux. En outre, nous démontrons les avantages empiriques de la flexibilité des algorithmes emphatiques, y compris l'actualisation dépendante de l'état, le bootstrapping dépendant de l'état, et l'allocation des ressources d'approximation de fonction spécifiée par l'utilisateur.

Apprentissage emphatique par différence temporelle

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle