Poste de recherche

Évaluation des algorithmes d'apprentissage par renforcement sur des robots du monde réel

Grâce à de nombreux succès récents en simulation, l'apprentissage par renforcement sans modèle est apparu comme une approche prometteuse pour résoudre les tâches robotiques à contrôle continu. La communauté des chercheurs est désormais en mesure de reproduire, d'analyser et d'exploiter rapidement ces résultats grâce à des implémentations open source des algorithmes d'apprentissage et des tâches de référence simulées. Pour transposer ces succès aux applications du monde réel, il est crucial de ne pas utiliser les avantages uniques des simulations qui ne sont pas transférables au monde réel et d'expérimenter directement avec des robots physiques. Cependant, la recherche sur l'apprentissage par renforcement avec des robots physiques se heurte à une résistance importante en raison du manque de tâches de référence et de code source. Dans ce travail, nous présentons plusieurs tâches d'apprentissage par renforcement avec plusieurs robots disponibles dans le commerce qui présentent différents niveaux de difficulté d'apprentissage, de configuration et de répétabilité. Pour ces tâches, nous testons les performances d'apprentissage de quatre algorithmes d'apprentissage par renforcement disponibles sur le marché et analysons la sensibilité à leurs hyperparamètres afin de déterminer s'ils sont prêts à être appliqués à diverses tâches du monde réel. Nos résultats montrent qu'avec une configuration soignée de l'interface de la tâche et des calculs, certaines de ces implémentations peuvent être facilement applicables aux robots physiques. Nous constatons que les algorithmes d'apprentissage de pointe sont très sensibles à leurs hyperparamètres et que leur ordre relatif ne se transfère pas d'une tâche à l'autre, ce qui indique la nécessité de les réajuster pour chaque tâche afin d'obtenir les meilleures performances. D'un autre côté, la meilleure configuration des hyperparamètres d'une tâche peut souvent donner lieu à un apprentissage efficace sur les tâches retenues, même avec des robots différents, ce qui constitue un défaut raisonnable. Nous mettons les tâches de référence à la disposition du public afin d'améliorer la reproductibilité de l'apprentissage par renforcement dans le monde réel.

Remerciements

Nous remercions Colin Cooke, Francois Hogan et Daniel Snider pour leurs précieuses discussions, ainsi que Yifei Cheng et Scott Purdy pour leur aide dans la construction de l'arène de Create 2. Colin Cooke nous a également aidés à configurer l'ordinateur de bord pour l'une des deux exécutions de Create-Docker.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !