Poste de recherche

Unification de la spécification des tâches dans l'apprentissage par renforcement

Les tâches d'apprentissage par renforcement sont généralement spécifiées comme des processus de décision de Markov. Ce formalisme a connu un grand succès, bien que les spécifications couplent souvent la dynamique de l'environnement et l'objectif d'apprentissage. Ce manque de modularité peut compliquer la généralisation de la spécification de la tâche, ainsi qu'obscurcir les connexions entre les différents paramètres de la tâche, tels que l'épisodique et le continu. Dans ce travail, nous introduisons le formalisme de tâche RL, qui fournit une unification par le biais de constructions simples, y compris une généralisation de l'actualisation basée sur la transition. A travers une série d'exemples, nous démontrons la généralité et l'utilité de ce formalisme. Enfin, nous étendons les constructions d'apprentissage standard, notamment les opérateurs de Bellman, et nous étendons certains résultats théoriques fondamentaux, notamment les limites d'erreurs d'approximation. Dans l'ensemble, nous fournissons un formalisme bien compris et solide sur lequel on peut construire des résultats théoriques et simplifier l'utilisation et le développement d'algorithmes.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !