Poste de recherche

Valeur hallucinante : Un écueil de la planification Dyna-style avec des modèles d'environnement imparfaits

Résumé

Les agents d'apprentissage par renforcement (RL) de type Dyna améliorent l'efficacité de l'échantillonnage par rapport aux agents RL sans modèle en mettant à jour la fonction de valeur avec l'expérience simulée générée par un modèle d'environnement. Cependant, il est souvent difficile d'apprendre des modèles précis de la dynamique de l'environnement, et même de petites erreurs peuvent entraîner l'échec des agents Dyna. Dans cet article, nous étudions un type d'erreur de modèle : les états hallucinés. Il s'agit d'états générés par le modèle, mais qui ne sont pas des états réels de l'environnement. Nous présentons l'hypothèse de la valeur hallucinée (HVH) : la mise à jour des valeurs des états réels vers les valeurs des états hallucinés entraîne des valeurs d'état-action trompeuses qui affectent négativement la politique de contrôle. Nous discutons et évaluons quatre variantes de Dyna ; trois qui mettent à jour les états réels vers des états simulés -- et donc potentiellement hallucinés -- et une qui ne le fait pas. Les résultats expérimentaux fournissent des preuves de l'existence de l'HVH, suggérant ainsi une direction fructueuse vers le développement d'algorithmes Dyna robustes aux erreurs de modèle.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !