Poste de recherche

Fournir des conseils fondés sur l'incertitude aux agents d'apprentissage par renforcement profond

Résumé

La complexité des échantillons des techniques d'apprentissage par renforcement (RL) représente toujours un défi pour l'extension du RL à des domaines non résolus. Une façon de pallier ce problème est de tirer parti d'échantillons de la politique d'un démonstrateur pour apprendre plus rapidement. Cependant, les conseils sont normalement limités, donc les conseils devraient idéalement être dirigés vers les états où l'agent est incertain sur la meilleure action à appliquer. Dans ce travail, nous proposons le Requesting Confidence-Moderated Policy advice (RCMP), un cadre de conseil d'action où l'agent demande des conseils lorsque son incertitude est élevée. Nous décrivons une technique pour estimer l'incertitude de l'agent avec des modifications mineures dans les méthodes RL standard basées sur la valeur. Nous montrons que RCMP est plus performant que plusieurs modèles de base dans le domaine Atari Pong.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !