Poste de recherche
L'apprentissage par renforcement hors politique offre la promesse d'un apprentissage efficace en termes d'échantillons de politiques décisionnelles en tirant parti de l'expérience passée. Cependant, dans le cadre de l'apprentissage par renforcement hors ligne - où une collection fixe d'interactions est fournie et où aucune autre interaction n'est autorisée - il a été démontré que les méthodes standard d'apprentissage par renforcement hors politique peuvent être nettement moins performantes. Les méthodes récemment proposées visent souvent à remédier à cette lacune en contraignant les politiques apprises à rester proches de l'ensemble des interactions données. Dans ce travail, nous étudions de près une simplification importante de BCQ -- une approche antérieure pour le RL hors ligne -- qui supprime un choix de conception heuristique et restreint naturellement les politiques extraites pour qu'elles restent exactement dans le support d'une politique de comportement donnée. De manière importante, contrairement aux considérations théoriques originales, nous dérivons cet algorithme simplifié par l'introduction d'un nouvel opérateur de sauvegarde, Expected-Max Q-Learning (EMaQ), qui est plus étroitement lié à l'algorithme pratique résultant. Plus précisément, en plus du support de la distribution, EMaQ considère explicitement le nombre d'échantillons et la distribution de la proposition, ce qui nous permet de dériver de nouvelles limites de sous-optimalité qui peuvent servir de nouvelle mesure de la complexité des problèmes de RL hors ligne. Dans le cadre de la RL hors ligne - le point principal de ce travail - EMaQ correspond et dépasse l'état de l'art antérieur dans les repères D4RL. Dans le cadre de la RL en ligne, nous démontrons que EMaQ est compétitif avec Soft Actor Critic. Les principales contributions de nos résultats empiriques sont la démonstration de l'importance d'une conception soignée du modèle génératif pour l'estimation des politiques de comportement, et une notion intuitive de la complexité pour les problèmes de RL hors ligne. Avec son interprétation simple et moins de pièces mobiles, comme l'absence d'approximateur de fonction explicite représentant la politique, EMaQ sert de base solide mais facile à mettre en œuvre pour les travaux futurs.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.