Formation de réseaux de neurones de politique à l'aide de l'apprentissage de la cohérence des chemins

Résumé

Méthodes, systèmes et appareils, y compris des programmes informatiques codés sur un support de stockage informatique, pour former un réseau neuronal de politique utilisé pour sélectionner des actions à réaliser par un agent d'apprentissage par renforcement interagissant avec un environnement. Dans un aspect, un procédé comprend l'obtention de données de chemin définissant un chemin à travers l'environnement traversé par l'agent. Une erreur de cohérence est déterminée pour le chemin à partir d'une récompense combinée, des première et dernière valeurs d'état soft-max, et d'une vraisemblance de chemin. Une mise à jour de valeur pour les valeurs actuelles des paramètres du réseau neuronal de politique est déterminée à partir d'au moins l'erreur de cohérence. La mise à jour de la valeur est utilisée pour ajuster les valeurs actuelles des paramètres du réseau neuronal de stratégie.

Formation de réseaux de neurones de politique à l'aide de l'apprentissage de la cohérence des chemins

Résumé

Derniers documents de recherche

UCTransNet : Repenser les connexions de saut dans U-Net d'une perspective de canal avec Transformer

Habitat-Matterport 3D Dataset (HM3D) : 1000 environnements 3D à grande échelle pour l'IA incarnée

Roominoes : Génération de nouveaux plans d'étage 3D à partir de pièces 3D existantes

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle