Poste de recherche
Les systèmes interactifs homme-machine qui s'appuient sur l'apprentissage automatique deviennent primordiaux dans la vie de millions de personnes qui utilisent quotidiennement des assistants numériques. Pourtant, les progrès futurs sont limités par la disponibilité des données et le coût d'acquisition de nouveaux échantillons. Une façon de résoudre ce problème est d'améliorer l'efficacité des échantillons des approches actuelles. En guise de solution, nous présentons un algorithme d'apprentissage par renforcement basé sur un modèle pour une tâche de dialogue interactif. Nous nous basons sur les méthodes de critique d'acteur couramment utilisées, en ajoutant un modèle d'environnement et un planificateur qui augmente un agent d'apprentissage pour apprendre le modèle de la dynamique de l'environnement. Nos résultats montrent que, sur une simulation qui imite la tâche interactive, notre algorithme nécessite 70 fois moins d'échantillons, par rapport à l'algorithme sans modèle couramment utilisé, et démontre une performance 2~fois meilleure asymptotiquement. De plus, nous introduisons une nouvelle contribution consistant à calculer une politique de planificateur souple et à mettre à jour une politique sans modèle, ce qui permet d'obtenir un agent sans modèle moins coûteux en termes de calcul et aussi performant que l'agent basé sur un modèle. Cette architecture basée sur un modèle sert de base qui peut être étendue à d'autres tâches interactives homme-machine, permettant ainsi de nouvelles avancées dans cette direction.
26 février 2023
Poste de recherche
23 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.