Poste de recherche

ConQUR : Atténuation du biais d'illusion dans l'apprentissage profond des questions (Q-learning)

Résumé

Le biais d'illusion est une source fondamentale d'erreur dans l'apprentissage approximatif de la qualité. À ce jour, les seules techniques qui traitent explicitement du délire nécessitent une recherche exhaustive à l'aide d'estimations de valeurs tabulaires. Dans cet article, nous développons des méthodes efficaces pour atténuer le biais d'illusion en formant des approximateurs Q avec des étiquettes qui sont "cohérentes" avec la classe de politique avide sous-jacente. Nous introduisons un schéma de pénalisation simple qui encourage les étiquettes Q utilisées dans les lots d'entraînement à rester (conjointement) cohérentes avec la classe de politiques exprimables. Nous proposons également un cadre de recherche qui permet de générer et de suivre plusieurs approximateurs de Q, ce qui atténue l'effet des engagements prématurés (implicites) de politique. Les résultats expérimentaux démontrent que ces méthodes peuvent améliorer les performances de l'apprentissage Q dans une variété de jeux Atari, parfois de façon spectaculaire.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !