Apprentissage par renforcement interactif avec réutilisation dynamique des connaissances antérieures à partir de démonstrations humaines et d'agents

L'apprentissage par renforcement a connu de nombreux succès impressionnants ces dernières années. Cependant, ces succès nécessitent généralement de très grandes quantités de données avant qu'un agent n'atteigne une performance acceptable. Cet article se concentre sur une nouvelle façon de lutter contre ces exigences en exploitant les connaissances existantes (humaines ou de l'agent). En particulier, cet article exploite les démonstrations, permettant à un agent d'atteindre rapidement des performances élevées. Cet article présente l'algorithme Dynamic Reuse of Prior (DRoP), qui combine les connaissances hors ligne (démonstrations enregistrées avant l'apprentissage) avec une analyse de performance en ligne basée sur la confiance. DRoP exploite les connaissances du démonstrateur en équilibrant automatiquement la réutilisation des connaissances antérieures et la politique actuelle apprise, ce qui permet à l'agent de surpasser les démonstrations originales. Nous comparons avec plusieurs algorithmes d'apprentissage de pointe et montrons empiriquement que DRoP peut atteindre des performances supérieures dans deux domaines. De plus, nous montrons que cette mesure de confiance peut être utilisée pour demander sélectivement des démonstrations supplémentaires, améliorant ainsi de manière significative les performances d'apprentissage de l'agent.

Apprentissage par renforcement interactif avec réutilisation dynamique des connaissances antérieures à partir de démonstrations humaines et d'agents

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle