Csaba Szepesvári travaille sur la théorie de l'apprentissage par renforcement, en créant et en analysant des algorithmes qui apprennent de manière efficace et effective tout en interagissant avec leur environnement de manière séquentielle.
Fondements théoriques de l'apprentissage par renforcement
Csaba Szepesvári travaille sur la théorie de l'apprentissage par renforcement, en créant et en analysant des algorithmes qui apprennent de manière efficace et effective tout en interagissant avec leur environnement de manière séquentielle. Il s'intéresse particulièrement aux problèmes où une machine interagit continuellement avec son environnement tout en essayant de découvrir de manière autonome une bonne façon d'interagir avec lui. Ces problèmes d'apprentissage interactif en ligne sont étudiés dans diverses disciplines, notamment dans le cadre de la théorie du contrôle, sous le nom de "double contrôle", ou dans le cadre de l'apprentissage automatique lui-même, dans le domaine de l'apprentissage par renforcement. Les sujets de recherche spécifiques comprennent l'apprentissage et la planification en ligne efficaces et efficients sur le plan informatique dans les grands processus de décision de Markov, ou avec des données par lots ; de nouveaux algorithmes pour l'apprentissage par renforcement multicritères ; des algorithmes d'optimisation et de planification efficaces ; et des certificats de performance des politiques.
Csaba est membre et titulaire de la chaire CIFAR d'IA à Amii et professeur au département d'informatique de l'université d'Alberta. Il est chercheur scientifique senior chez DeepMind à Edmonton, en Alberta, où il dirige l'équipe Foundations. Il est rédacteur en chef adjoint de Mathematics of Operations Research et rédacteur en chef adjoint du Journal of Machine Learning Research. Csaba est membre senior de l'Institute of Electrical and Electronics Engineers et membre de l'American Association for Artificial Intelligence. Les publications de Csaba ont été récompensées par des conférences de premier plan telles que la Conférence internationale sur l'apprentissage automatique (ICML), la Conférence sur l'incertitude en IA, et la Conférence européenne sur l'apprentissage automatique et les principes et pratiques de la découverte de connaissances dans les bases de données (ECML/PKDD), où il a reçu le prix Test of Time en 2016. Csaba a coécrit plus de 225 publications, dont un livre sur les algorithmes Bandit, qui est sorti à l'été 2020.