Poste de recherche
L'apprentissage par renforcement a connu de nombreux succès impressionnants ces dernières années. Cependant, ces succès nécessitent généralement de très grandes quantités de données avant qu'un agent n'atteigne une performance acceptable. Cet article se concentre sur une nouvelle façon de lutter contre ces exigences en exploitant les connaissances existantes (humaines ou de l'agent). En particulier, cet article exploite les démonstrations, permettant à un agent d'atteindre rapidement des performances élevées. Cet article présente l'algorithme Dynamic Reuse of Prior (DRoP), qui combine les connaissances hors ligne (démonstrations enregistrées avant l'apprentissage) avec une analyse de performance en ligne basée sur la confiance. DRoP exploite les connaissances du démonstrateur en équilibrant automatiquement la réutilisation des connaissances antérieures et la politique actuelle apprise, ce qui permet à l'agent de surpasser les démonstrations originales. Nous comparons avec plusieurs algorithmes d'apprentissage de pointe et montrons empiriquement que DRoP peut atteindre des performances supérieures dans deux domaines. De plus, nous montrons que cette mesure de confiance peut être utilisée pour demander sélectivement des démonstrations supplémentaires, améliorant ainsi de manière significative les performances d'apprentissage de l'agent.
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
31 janvier 2023
Poste de recherche
20 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.