Suivi multi-échelle dans un robot à apprentissage par renforcement.

Le terme "nexting" a été utilisé par les psychologues pour désigner la propension des personnes et de nombreux autres animaux à prédire continuellement ce qui va se passer ensuite dans un sens immédiat, local et personnel. La capacité à prévoir constitue une forme fondamentale de conscience et de connaissance de son environnement. Dans cet article, nous présentons les résultats obtenus avec un robot qui apprend à prévoir en temps réel, en faisant des milliers de prédictions sur les signaux d'entrée sensoriels à des échelles de temps allant de 0,1 à 8 secondes. Nos prédictions sont formulées comme une généralisation des fonctions de valeur couramment utilisées dans l'apprentissage par renforcement, où maintenant une fonction arbitraire des signaux d'entrée sensoriels est utilisée comme pseudo récompense, et le taux d'actualisation détermine l'échelle de temps. Nous montrons que six mille prédictions, chacune calculée en fonction de six mille caractéristiques de l'état, peuvent être apprises et mises à jour en ligne dix fois par seconde sur un ordinateur portable, en utilisant l'algorithme standard de différence temporelle(λ) avec approximation de fonction linéaire. Cette approche est suffisamment efficace en termes de calcul pour être utilisée pour l'apprentissage en temps réel sur le robot et suffisamment efficace en termes de données pour atteindre une précision substantielle en 30 minutes. De plus, une seule représentation des caractéristiques codées en tuiles suffit pour prédire avec précision de nombreux signaux différents sur une gamme significative d'échelles de temps. Nous étendons également le nexting au-delà des échelles de temps simples en laissant le taux d'actualisation être une fonction de l'état et montrons que les prédictions de nexting de cette forme plus générale peuvent également être apprises avec une précision substantielle. Le nexting général fournit un mécanisme simple mais puissant permettant à un robot d'acquérir une connaissance prédictive de la dynamique de son environnement.

Suivi multi-échelle dans un robot à apprentissage par renforcement.

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Identification des émotions de base et des émotions spécifiques à la dépression dans les tweets : Expériences de classification multi-label

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle