Poste de recherche

Horde : Une architecture temps réel évolutive pour l'apprentissage de connaissances à partir d'interactions sensorimotrices non supervisées.

Maintenir une connaissance précise du monde dans un environnement complexe et changeant est un problème permanent pour les robots et autres systèmes d'intelligence artificielle. Notre architecture pour résoudre ce problème, appelée Horde, consiste en un grand nombre de sous-agents d'apprentissage par renforcement indépendants, ou démons. Chaque démon est responsable de la réponse à une seule question prédictive ou orientée vers un objectif concernant le monde, contribuant ainsi de manière modulaire et facturée à la connaissance globale du système. Les questions se présentent sous la forme d'une fonction de valeur, mais chaque démon possède sa propre politique, sa propre fonction de récompense, sa propre fonction de fin et sa propre fonction de récompense terminale, sans rapport avec celles du problème de base. L'apprentissage est effectué en parallèle par tous les démons simultanément afin d'extraire le maximum d'informations d'apprentissage de toutes les actions prises par le système dans son ensemble. Des méthodes d'apprentissage par différence temporelle basées sur le gradient sont utilisées pour apprendre de manière efficace et fiable avec une approximation de fonction dans ce cadre hors politique. Horde s'exécute en temps et en mémoire constants par pas de temps, et est donc adapté à l'apprentissage en ligne dans des applications en temps réel telles que la robotique. Nous présentons les résultats de l'utilisation de Horde sur un robot mobile multi-sensoriel pour apprendre avec succès des comportements orientés vers un but et des prédictions à long terme à partir d'une expérience hors politique. Horde est une étape incrémentale significative vers une architecture en temps réel pour l'apprentissage efficace de connaissances générales à partir d'une interaction sensorimotrice non supervisée.

Remerciements

Les auteurs remercient Anna Koop, Mark Ring, Hamid Maei et Chris Rayner pour leur contribution aux idées présentées dans cet article. Nous remercions également Michael Sokolsky et Marc Bellemare pour leur aide dans la conception, la création et la maintenance du Critterbot. Cette recherche a été soutenue par iCORE et Alberta Ingenuity, qui font tous deux partie d'Alberta Innovates - Technology Futures, par le Conseil de recherches en sciences naturelles et en génie du Canada et par MITACS.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !