Résumé
De nombreux algorithmes d'apprentissage par renforcement reposent sur l'hypothèse qu'un agent interagit avec un environnement sur une durée fixe et des pas de temps discrets. Cependant, les systèmes physiques sont continus dans le temps, ce qui nécessite un choix de granularité de discrétisation temporelle lors de leur contrôle numérique. En outre, ces systèmes n'attendent pas que des décisions soient prises pour faire évoluer l'état de l'environnement, ce qui nécessite d'étudier la manière dont le choix de la discrétisation peut affecter un algorithme d'apprentissage par renforcement. Dans ce travail, nous considérons la relation entre les définitions des retours en temps continu et en temps discret. Plus précisément, nous reconnaissons l'idiosyncrasie de l'application naïve d'un algorithme à temps discret à un environnement à temps continu discrétisé, et nous notons comment une simple modification peut mieux aligner les définitions des rendements. Cette observation est d'une importance pratique lorsqu'il s'agit d'environnements où la granularité de la discrétisation temporelle est un choix, ou de situations où cette granularité est intrinsèquement stochastique.
Auteurs
Kris De Asis