Récompense basée sur la TTR pour l'apprentissage par renforcement avec des prieurs de modèle implicites

Résumé

L'apprentissage par renforcement sans modèle (RL) est une approche puissante pour l'apprentissage de politiques de contrôle directement à partir d'états et d'observations à haute dimension. Cependant, elle a tendance à être peu gourmande en données, ce qui est particulièrement coûteux dans les tâches d'apprentissage robotique. D'autre part, le contrôle optimal ne nécessite pas de données si le modèle du système est connu, mais il ne peut pas s'adapter aux modèles avec des états et des observations à haute dimension. Afin d'exploiter les avantages de la RL sans modèle et du contrôle optimal, nous proposons une mise en forme des récompenses basée sur le temps et l'atteinte (TTR), une technique inspirée du contrôle optimal pour atténuer l'inefficacité des données tout en conservant les avantages de la RL sans modèle. Pour ce faire, nous résumons les informations clés du modèle du système à l'aide d'une fonction TTR afin d'accélérer considérablement le processus RL, comme le montrent nos résultats de simulation. La fonction TTR est définie comme le temps minimum requis pour passer d'un état quelconque à l'objectif sous des contraintes supposées de dynamique du système. Comme la fonction TTR est difficile à calculer pour les systèmes avec des états de haute dimension, nous la calculons pour des modèles de systèmes approximatifs de plus faible dimension qui capturent toujours les comportements dynamiques clés. Notre approche peut être incorporée de manière flexible et facile dans n'importe quel algorithme RL sans modèle sans modifier la structure de l'algorithme original, et est compatible avec toutes les autres techniques qui peuvent faciliter le processus RL. Nous évaluons notre approche sur deux tâches d'apprentissage robotique représentatives et trois algorithmes RL sans modèle bien connus, et nous montrons des améliorations significatives en termes d'efficacité et de performance des données.

Récompense basée sur la TTR pour l'apprentissage par renforcement avec des prieurs de modèle implicites

Résumé

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Identification des émotions de base et des émotions spécifiques à la dépression dans les tweets : Expériences de classification multi-label

STPOTR : Prédiction simultanée de la trajectoire et de la pose d'un humain à l'aide d'un transformateur non autorégressif pour le suivi d'un robot.

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle