Institut de l'intelligence artificielle de l'Alberta

Une idiosyncrasie de la discrétisation temporelle dans l'apprentissage par renforcement

Publié

2 septembre 2024

Résumé

De nombreux algorithmes d'apprentissage par renforcement reposent sur l'hypothèse qu'un agent interagit avec un environnement sur une durée fixe et des pas de temps discrets. Cependant, les systèmes physiques sont continus dans le temps, ce qui nécessite un choix de granularité de discrétisation temporelle lors de leur contrôle numérique. En outre, ces systèmes n'attendent pas que des décisions soient prises pour faire évoluer l'état de l'environnement, ce qui nécessite d'étudier la manière dont le choix de la discrétisation peut affecter un algorithme d'apprentissage par renforcement. Dans ce travail, nous considérons la relation entre les définitions des retours en temps continu et en temps discret. Plus précisément, nous reconnaissons l'idiosyncrasie de l'application naïve d'un algorithme à temps discret à un environnement à temps continu discrétisé, et nous notons comment une simple modification peut mieux aligner les définitions des rendements. Cette observation est d'une importance pratique lorsqu'il s'agit d'environnements où la granularité de la discrétisation temporelle est un choix, ou de situations où cette granularité est intrinsèquement stochastique.

Auteurs

Kris De Asis

Richard S. Sutton

Partager