Poste de recherche

Récompense basée sur la TTR pour l'apprentissage par renforcement avec des prieurs de modèle implicites

Résumé

L'apprentissage par renforcement sans modèle (RL) est une approche puissante pour l'apprentissage de politiques de contrôle directement à partir d'états et d'observations à haute dimension. Cependant, elle a tendance à être peu gourmande en données, ce qui est particulièrement coûteux dans les tâches d'apprentissage robotique. D'autre part, le contrôle optimal ne nécessite pas de données si le modèle du système est connu, mais il ne peut pas s'adapter aux modèles avec des états et des observations à haute dimension. Afin d'exploiter les avantages de la RL sans modèle et du contrôle optimal, nous proposons une mise en forme des récompenses basée sur le temps et l'atteinte (TTR), une technique inspirée du contrôle optimal pour atténuer l'inefficacité des données tout en conservant les avantages de la RL sans modèle. Pour ce faire, nous résumons les informations clés du modèle du système à l'aide d'une fonction TTR afin d'accélérer considérablement le processus RL, comme le montrent nos résultats de simulation. La fonction TTR est définie comme le temps minimum requis pour passer d'un état quelconque à l'objectif sous des contraintes supposées de dynamique du système. Comme la fonction TTR est difficile à calculer pour les systèmes avec des états de haute dimension, nous la calculons pour des modèles de systèmes approximatifs de plus faible dimension qui capturent toujours les comportements dynamiques clés. Notre approche peut être incorporée de manière flexible et facile dans n'importe quel algorithme RL sans modèle sans modifier la structure de l'algorithme original, et est compatible avec toutes les autres techniques qui peuvent faciliter le processus RL. Nous évaluons notre approche sur deux tâches d'apprentissage robotique représentatives et trois algorithmes RL sans modèle bien connus, et nous montrons des améliorations significatives en termes d'efficacité et de performance des données.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !