Le AI Seminar est une réunion hebdomadaire à l'Université de l'Alberta où les chercheurs intéressés par l'intelligence artificielle (AI) peuvent partager leurs recherches. Les présentateurs comprennent à la fois des conférenciers locaux de l'Université de l'Alberta et des visiteurs d'autres institutions. Les sujets peuvent être liés de quelque manière que ce soit à l'intelligence artificielle, qu'il s'agisse de travaux théoriques fondamentaux ou d'applications novatrices de techniques d'IA à de nouveaux domaines et problèmes.
Résumé :
L'apprentissage par renforcement (RL) suppose souvent que les récompenses sont toujours observables par l'agent, mais certains scénarios du monde réel remettent en cause cette hypothèse. Le cadre des MDP surveillés (Mon-MDP) modélise les interactions où les récompenses ne sont pas toujours observables. Les travaux antérieurs sur les Mon-MDP se sont concentrés sur les cas tabulaires. Ce travail explore les Mon-MDP non tabulaires en utilisant l'approximation de fonction (FA) et étudie les défis impliqués, permettant aux agents de généraliser des états d'environnement surveillés à des états d'environnement non surveillés. Cependant, l'approximation de fonction peut entraîner une généralisation excessive, où les agents extrapolent incorrectement les récompenses. Pour y remédier, nous proposons une méthode d'apprentissage prudente intégrant l'incertitude de la récompense afin d'éviter les résultats indésirables."
Bio du présentateur :
Montaser Mohammedalamen est un candidat au doctorat conseillé par le Dr Michael Bowling, qui étudie comment les systèmes d'intelligence artificielle peuvent apprendre dans des environnements où les récompenses ne sont pas toujours observables. Ses recherches portent sur la conception d'agents autonomes capables d'agir avec prudence dans des scénarios incertains, contribuant ainsi à faire progresser l'apprentissage par renforcement dans des environnements partiellement observables. Avant de commencer son doctorat, Montaser a travaillé comme ingénieur en IA chez SonyAI, où il faisait partie d'une équipe qui développait des systèmes robotiques multi-agents. Son travail consistait à former des agents à l'aide de l'auto-apprentissage et de l'apprentissage par renforcement conditionné par un objectif, à transférer les comportements appris des simulations vers le monde réel et à les intégrer aux systèmes de vision et aux méthodes de contrôle des robots. Montaser se passionne pour le rapprochement de la recherche théorique et des applications pratiques afin de créer des systèmes adaptatifs et intelligents pour des environnements complexes."