Jeux décentralisés à champ moyen

Résumé : Les algorithmes d'apprentissage par renforcement multi-agents n'ont pas été largement adoptés dans les environnements à grande échelle avec de nombreux agents, car ils sont souvent mal adaptés au nombre d'agents. L'utilisation de la théorie des champs moyens pour agréger les agents a été proposée comme solution à ce problème. Cependant, presque toutes les méthodes précédentes dans ce domaine supposent fortement un système centralisé où tous les agents dans l'environnement apprennent la même politique et sont effectivement indiscernables les uns des autres. Dans cet article, nous assouplissons cette hypothèse d'agents indiscernables et proposons un nouveau système de champ moyen connu sous le nom de jeux de champ moyen décentralisés, où chaque agent peut être très différent des autres. Tous les agents apprennent des politiques indépendantes de manière décentralisée, en se basant sur leurs observations locales. Nous définissons un concept théorique de solution pour ce système et fournissons une garantie de point fixe pour un algorithme basé sur le Q-learning dans ce système. Une conséquence pratique de notre approche est que nous pouvons résoudre le problème de l'œuf et de la poule dans les algorithmes d'apprentissage par renforcement à champ moyen empirique. De plus, nous fournissons des algorithmes d'apprentissage par la qualité et de critique de l'acteur qui utilisent l'approche décentralisée de l'apprentissage par le champ moyen et donnent de meilleures performances par rapport aux bases communes dans ce domaine. Dans notre cadre, les agents n'ont pas besoin d'être des clones les uns des autres et apprennent de manière totalement décentralisée. Ainsi, pour la première fois, nous montrons l'application des méthodes d'apprentissage par champ moyen dans des environnements entièrement compétitifs, des environnements d'espace d'action continu à grande échelle et d'autres environnements avec des agents hétérogènes. Nous appliquons également la méthode du champ moyen à un problème de covoiturage en utilisant un ensemble de données du monde réel. Nous proposons une solution décentralisée à ce problème, qui est plus pratique que les méthodes de formation centralisées existantes.

Jeux décentralisés à champ moyen

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle