Poste de recherche

Formation de réseaux de neurones de politique à l'aide de l'apprentissage de la cohérence des chemins

Résumé

Méthodes, systèmes et appareils, y compris des programmes informatiques codés sur un support de stockage informatique, pour former un réseau neuronal de politique utilisé pour sélectionner des actions à réaliser par un agent d'apprentissage par renforcement interagissant avec un environnement. Dans un aspect, un procédé comprend l'obtention de données de chemin définissant un chemin à travers l'environnement traversé par l'agent. Une erreur de cohérence est déterminée pour le chemin à partir d'une récompense combinée, des première et dernière valeurs d'état soft-max, et d'une vraisemblance de chemin. Une mise à jour de valeur pour les valeurs actuelles des paramètres du réseau neuronal de politique est déterminée à partir d'au moins l'erreur de cohérence. La mise à jour de la valeur est utilisée pour ajuster les valeurs actuelles des paramètres du réseau neuronal de stratégie.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !