Horde : Une architecture temps réel évolutive pour l'apprentissage de connaissances à partir d'interactions sensorimotrices non supervisées.

Maintenir une connaissance précise du monde dans un environnement complexe et changeant est un problème permanent pour les robots et autres systèmes d'intelligence artificielle. Notre architecture pour résoudre ce problème, appelée Horde, consiste en un grand nombre de sous-agents d'apprentissage par renforcement indépendants, ou démons. Chaque démon est responsable de la réponse à une seule question prédictive ou orientée vers un objectif concernant le monde, contribuant ainsi de manière modulaire et facturée à la connaissance globale du système. Les questions se présentent sous la forme d'une fonction de valeur, mais chaque démon possède sa propre politique, sa propre fonction de récompense, sa propre fonction de fin et sa propre fonction de récompense terminale, sans rapport avec celles du problème de base. L'apprentissage est effectué en parallèle par tous les démons simultanément afin d'extraire le maximum d'informations d'apprentissage de toutes les actions prises par le système dans son ensemble. Des méthodes d'apprentissage par différence temporelle basées sur le gradient sont utilisées pour apprendre de manière efficace et fiable avec une approximation de fonction dans ce cadre hors politique. Horde s'exécute en temps et en mémoire constants par pas de temps, et est donc adapté à l'apprentissage en ligne dans des applications en temps réel telles que la robotique. Nous présentons les résultats de l'utilisation de Horde sur un robot mobile multi-sensoriel pour apprendre avec succès des comportements orientés vers un but et des prédictions à long terme à partir d'une expérience hors politique. Horde est une étape incrémentale significative vers une architecture en temps réel pour l'apprentissage efficace de connaissances générales à partir d'une interaction sensorimotrice non supervisée.

Remerciements

Les auteurs remercient Anna Koop, Mark Ring, Hamid Maei et Chris Rayner pour leur contribution aux idées présentées dans cet article. Nous remercions également Michael Sokolsky et Marc Bellemare pour leur aide dans la conception, la création et la maintenance du Critterbot. Cette recherche a été soutenue par iCORE et Alberta Ingenuity, qui font tous deux partie d'Alberta Innovates - Technology Futures, par le Conseil de recherches en sciences naturelles et en génie du Canada et par MITACS.

Horde : Une architecture temps réel évolutive pour l'apprentissage de connaissances à partir d'interactions sensorimotrices non supervisées.

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Identification des émotions de base et des émotions spécifiques à la dépression dans les tweets : Expériences de classification multi-label

STPOTR : Prédiction simultanée de la trajectoire et de la pose d'un humain à l'aide d'un transformateur non autorégressif pour le suivi d'un robot.

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle