Poste de recherche

Modélisation des opposants avec des méthodes asynchrones en rl profond

Résumé

Un système informatique et un procédé pour étendre l'apprentissage par renforcement asynchrone parallélisé afin d'inclure la modélisation d'agents pour former un réseau neuronal sont décrits. Le fonctionnement coordonné d'une pluralité de processeurs matériels ou de fils d'exécution est utilisé de telle sorte que chacun fonctionne comme un processus de travail configuré pour interagir simultanément avec un environnement informatique cible pour un calcul de gradient local basé sur un mécanisme de détermination de perte et pour mettre à jour les paramètres globaux du réseau. Le mécanisme de détermination des pertes comprend au moins un terme de perte de politique (acteur), un terme de perte de valeur (critique) et une perte d'entropie croisée supervisée. Des variantes sont décrites plus loin où le réseau neuronal est adapté pour inclure un espace latent pour suivre les caractéristiques de la politique de l'agent.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !