Rupam Mahmood développe des algorithmes d'apprentissage par renforcement et des systèmes d'apprentissage en temps réel pour le contrôle des robots physiques.
Améliorer continuellement l'esprit des robots
Rupam Mahmood développe des algorithmes d'apprentissage par renforcement et des systèmes d'apprentissage en temps réel pour le contrôle des robots physiques. Ses recherches se concentrent sur le développement de mécanismes généraux et constructifs pour améliorer continuellement l'esprit des robots. Actuellement, il travaille sur deux programmes à long terme composés de plusieurs projets à court terme : un système d'apprentissage par renforcement simple et général pour le contrôle des robots, et des mécanismes constructifs fondamentaux pour des agents en apprentissage continu. Dans le cadre du premier programme, Rupam et son équipe travaillent au développement d'un système d'apprentissage par renforcement qui peut être facilement déployé dans de nombreux robots différents pour résoudre diverses tâches. Dans le cadre du second programme, ses équipes de recherche développent et analysent des algorithmes d'apprentissage de politiques et de représentations dans une configuration d'apprentissage continu, dans laquelle l'agent est censé subir une série de changements dans l'environnement et les tâches. Grâce à ces deux programmes, Rupam cherche à développer un système permettant la compréhension scientifique ainsi que l'adoption industrielle à grande échelle de la robotique en analysant et en corrigeant les lacunes des méthodes actuelles d'apprentissage des politiques et des représentations.
Rupam est boursier et titulaire de la chaire d'IA du CIFAR Canada à l'Amii et professeur adjoint au département d'informatique de l'Université d'Alberta. En 2017, il a obtenu son doctorat en apprentissage automatique statistique à l'Université de l'Alberta sous la supervision de Richard S. Sutton (Fellow d'Amii, conseiller scientifique en chef et pionnier de l'apprentissage par renforcement), sa thèse portant sur les algorithmes d'apprentissage par renforcement incrémental hors politique. Auparavant, Rupam a été chercheur scientifique, puis responsable de la recherche sur l'intelligence artificielle chez Kindred Inc. où il fait désormais office de conseiller scientifique. Il est rédacteur en chef adjoint de l'IEEE/RJS International Conference on Intelligent Robots and Systems (IROS) et membre du comité de programme principal de l'International Joint Conference on Artificial Intelligence (IJCAI). Rupam a produit un logiciel qui fournit un cadre de calcul et une suite de tâches de référence pour développer et évaluer les méthodes d'apprentissage par renforcement avec des robots physiques.