Poste de recherche
L'apprentissage par renforcement sans modèle (RL) est une approche puissante pour l'apprentissage de politiques de contrôle directement à partir d'états et d'observations à haute dimension. Cependant, elle a tendance à être peu gourmande en données, ce qui est particulièrement coûteux dans les tâches d'apprentissage robotique. D'autre part, le contrôle optimal ne nécessite pas de données si le modèle du système est connu, mais il ne peut pas s'adapter aux modèles avec des états et des observations à haute dimension. Afin d'exploiter les avantages de la RL sans modèle et du contrôle optimal, nous proposons une mise en forme des récompenses basée sur le temps et l'atteinte (TTR), une technique inspirée du contrôle optimal pour atténuer l'inefficacité des données tout en conservant les avantages de la RL sans modèle. Pour ce faire, nous résumons les informations clés du modèle du système à l'aide d'une fonction TTR afin d'accélérer considérablement le processus RL, comme le montrent nos résultats de simulation. La fonction TTR est définie comme le temps minimum requis pour passer d'un état quelconque à l'objectif sous des contraintes supposées de dynamique du système. Comme la fonction TTR est difficile à calculer pour les systèmes avec des états de haute dimension, nous la calculons pour des modèles de systèmes approximatifs de plus faible dimension qui capturent toujours les comportements dynamiques clés. Notre approche peut être incorporée de manière flexible et facile dans n'importe quel algorithme RL sans modèle sans modifier la structure de l'algorithme original, et est compatible avec toutes les autres techniques qui peuvent faciliter le processus RL. Nous évaluons notre approche sur deux tâches d'apprentissage robotique représentatives et trois algorithmes RL sans modèle bien connus, et nous montrons des améliorations significatives en termes d'efficacité et de performance des données.
3 mars 2023
Poste de recherche
26 février 2023
Poste de recherche
15 septembre 2022
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.