Poste de recherche
Les politiques d'exploration dans les bandits bayésiens maximisent la récompense moyenne sur les instances du problème tirées d'une certaine distribution P. Dans ce travail, nous apprenons de telles politiques pour une distribution P inconnue en utilisant des échantillons de P. Notre approche est une forme de méta-apprentissage et exploite les propriétés de P sans faire de fortes hypothèses sur sa forme. Pour ce faire, nous paramétrons nos politiques de manière différentiable et les optimisons par des gradients de politique, une approche agréablement générale et facile à mettre en œuvre. Nous dérivons des estimateurs de gradient efficaces et proposons de nouvelles techniques de réduction de la variance. Nous analysons et expérimentons également diverses classes de politiques de bandits, y compris les réseaux neuronaux et une nouvelle politique softmax. Cette dernière présente des garanties de regret et constitue un point de départ naturel pour notre optimisation. Nos expériences montrent la polyvalence de notre approche. Nous observons également que les politiques de réseaux neuronaux peuvent apprendre des biais implicites exprimés uniquement par les instances échantillonnées.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.