Poste de recherche

Apprentissage emphatique par différence temporelle

Les algorithmes emphatiques sont des algorithmes d'apprentissage par différence temporelle qui modifient leur distribution d'état effective en accentuant et en désaccentuant sélectivement leurs mises à jour à différents pas de temps. Les travaux récents de Sutton, Mahmood et White (2015), et de Yu (2015) montrent qu'en faisant varier l'emphase d'une manière particulière, ces algorithmes deviennent stables et convergents dans le cadre d'un apprentissage hors politique avec approximation de fonction linéaire. Cet article sert de résumé unifié des résultats disponibles de ces deux travaux. En outre, nous démontrons les avantages empiriques de la flexibilité des algorithmes emphatiques, y compris l'actualisation dépendante de l'état, le bootstrapping dépendant de l'état, et l'allocation des ressources d'approximation de fonction spécifiée par l'utilisateur.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !