Institut de l'intelligence artificielle de l'Alberta

Recherche en 1 minute : Gautham Vasan, Deep Policy Gradient Methods without Batch Updates, Target Networks, or Replay Buffers (Méthodes de gradient de politique profonde sans mises à jour par lots, réseaux cibles ou tampons de relecture)

Publié

29 novembre 2024