Institut de l'intelligence artificielle de l'Alberta

Approximation stochastique asynchrone et apprentissage par renforcement de la moyenne et de la récompense

Publié

24 septembre 2024

Résumé

Cet article étudie les algorithmes d'approximation stochastique (SA) asynchrones et leur application à l'apprentissage par renforcement dans les processus de décision semi-Markov (SMDP) avec un critère de récompense moyenne. Nous étendons tout d'abord la méthode de preuve de stabilité de Borkar et Meyn pour prendre en compte des conditions de bruit plus générales, ce qui conduit à des garanties de convergence plus larges pour les algorithmes d'approximation stochastique asynchrones. En nous appuyant sur ces résultats, nous établissons la convergence d'un analogue SA asynchrone de l'algorithme classique d'itération de la valeur relative de Schweitzer, l'apprentissage RVI Q, pour les SMDP à espace fini et faiblement communicants. En outre, pour utiliser pleinement les résultats de l'AS dans cette application, nous introduisons de nouvelles conditions de monotonicité pour estimer le taux de récompense optimal dans l'apprentissage RVI Q. Ces conditions élargissent considérablement la portée de l'algorithme précédemment considéré. Ces conditions élargissent considérablement le cadre algorithmique précédemment considéré, et nous les abordons avec de nouveaux arguments de preuve dans l'analyse de la stabilité et de la convergence de l'apprentissage Q RVI.

Auteurs

Huizhen Yu

Yi Wan

Richard S. Sutton

Partager