Poste de recherche
Maintenir une connaissance précise du monde dans un environnement complexe et changeant est un problème permanent pour les robots et autres systèmes d'intelligence artificielle. Notre architecture pour résoudre ce problème, appelée Horde, consiste en un grand nombre de sous-agents d'apprentissage par renforcement indépendants, ou démons. Chaque démon est responsable de la réponse à une seule question prédictive ou orientée vers un objectif concernant le monde, contribuant ainsi de manière modulaire et facturée à la connaissance globale du système. Les questions se présentent sous la forme d'une fonction de valeur, mais chaque démon possède sa propre politique, sa propre fonction de récompense, sa propre fonction de fin et sa propre fonction de récompense terminale, sans rapport avec celles du problème de base. L'apprentissage est effectué en parallèle par tous les démons simultanément afin d'extraire le maximum d'informations d'apprentissage de toutes les actions prises par le système dans son ensemble. Des méthodes d'apprentissage par différence temporelle basées sur le gradient sont utilisées pour apprendre de manière efficace et fiable avec une approximation de fonction dans ce cadre hors politique. Horde s'exécute en temps et en mémoire constants par pas de temps, et est donc adapté à l'apprentissage en ligne dans des applications en temps réel telles que la robotique. Nous présentons les résultats de l'utilisation de Horde sur un robot mobile multi-sensoriel pour apprendre avec succès des comportements orientés vers un but et des prédictions à long terme à partir d'une expérience hors politique. Horde est une étape incrémentale significative vers une architecture en temps réel pour l'apprentissage efficace de connaissances générales à partir d'une interaction sensorimotrice non supervisée.
Remerciements
Les auteurs remercient Anna Koop, Mark Ring, Hamid Maei et Chris Rayner pour leur contribution aux idées présentées dans cet article. Nous remercions également Michael Sokolsky et Marc Bellemare pour leur aide dans la conception, la création et la maintenance du Critterbot. Cette recherche a été soutenue par iCORE et Alberta Ingenuity, qui font tous deux partie d'Alberta Innovates - Technology Futures, par le Conseil de recherches en sciences naturelles et en génie du Canada et par MITACS.
3 mars 2023
Poste de recherche
26 février 2023
Poste de recherche
15 septembre 2022
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.