Résumé
Cet article étudie les algorithmes d'approximation stochastique (SA) asynchrones et leur application à l'apprentissage par renforcement dans les processus de décision semi-Markov (SMDP) avec un critère de récompense moyenne. Nous étendons tout d'abord la méthode de preuve de stabilité de Borkar et Meyn pour prendre en compte des conditions de bruit plus générales, ce qui conduit à des garanties de convergence plus larges pour les algorithmes d'approximation stochastique asynchrones. En nous appuyant sur ces résultats, nous établissons la convergence d'un analogue SA asynchrone de l'algorithme classique d'itération de la valeur relative de Schweitzer, l'apprentissage RVI Q, pour les SMDP à espace fini et faiblement communicants. En outre, pour utiliser pleinement les résultats de l'AS dans cette application, nous introduisons de nouvelles conditions de monotonicité pour estimer le taux de récompense optimal dans l'apprentissage RVI Q. Ces conditions élargissent considérablement la portée de l'algorithme précédemment considéré. Ces conditions élargissent considérablement le cadre algorithmique précédemment considéré, et nous les abordons avec de nouveaux arguments de preuve dans l'analyse de la stabilité et de la convergence de l'apprentissage Q RVI.