Vers l'apprentissage par renforcement dans le cadre de la formation continue

Résumé :

De nombreux problèmes de prise de décision séquentielle peuvent être naturellement formulés comme des tâches continues dans lesquelles l'interaction agent-environnement se poursuit indéfiniment sans limite. Dans cet article, nous présentons l'état de la recherche dans le cadre de la continuité. Nous retraçons les principaux résultats des deux manières alternatives de formuler un problème continu - les formulations à prix réduit et à récompense moyenne. Contrairement au cas épisodique, les méthodes d'apprentissage par renforcement (RL) pour le cadre continu ne sont pas bien comprises, théoriquement ou empiriquement. Nous constatons que la recherche sur l'apprentissage par renforcement manque d'une collection de domaines continus faciles à utiliser qui pourraient nous aider à mieux comprendre le problème et ses méthodes de résolution. Afin de stimuler la recherche sur les méthodes de résolution de problèmes pour le cadre continu, nous avons finalement esquissé un ensemble préliminaire de domaines continus que nous appelons C-suite.

Cet article est présenté à la conférence Never-Ending Reinforcement Learning (NERL) dans le cadre de la 2021e Conférence internationale sur les représentations d'apprentissage (ICLR).

Vers l'apprentissage par renforcement dans le cadre de la formation continue

Résumé :

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle