Poste de recherche

Formulation de la récompense maximale dans l'apprentissage par renforcement

Résumé

Les algorithmes d'apprentissage par renforcement (RL) traitent généralement de la maximisation du rendement cumulatif attendu (actualisé ou non actualisé, à horizon fini ou infini). Cependant, plusieurs applications cruciales dans le monde réel, comme la découverte de médicaments, ne s'inscrivent pas dans ce cadre, car un agent d'apprentissage par renforcement doit seulement identifier les états (molécules) qui obtiennent la récompense la plus élevée dans une trajectoire et n'a pas besoin d'optimiser le rendement cumulatif attendu. Dans ce travail, nous formulons une fonction objectif pour maximiser la récompense maximale attendue le long d'une trajectoire, nous dérivons une nouvelle forme fonctionnelle de l'équation de Bellman, nous introduisons les opérateurs de Bellman correspondants et nous fournissons une preuve de convergence. En utilisant cette formulation, nous obtenons des résultats de pointe sur la tâche de génération de molécules qui imite un pipeline de découverte de médicaments du monde réel.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !