Poste de recherche

Résolution de jeux à gains communs avec itération approximative de la politique.

Résumé

Pour que les systèmes d'apprentissage artificiellement intelligents puissent être largement appliqués dans le monde réel, il est important qu'ils soient capables de fonctionner de manière décentralisée. Malheureusement, le contrôle décentralisé est difficile -- calculer même une politique commune epsilon-optimale est un problème NEXP complet. Néanmoins, une idée récemment redécouverte, à savoir qu'une équipe d'agents peut se coordonner par le biais de connaissances communes, a donné naissance à des algorithmes capables de trouver des politiques conjointes optimales dans de petits jeux à gains communs. Le décodeur d'action bayésien (BAD) exploite cette idée et l'apprentissage par renforcement profond pour s'adapter à des jeux aussi grands que le Hanabi à deux joueurs. Cependant, les approximations qu'il utilise pour ce faire l'empêchent de découvrir des politiques conjointes optimales, même dans des jeux suffisamment petits pour trouver des solutions optimales par force brute. Ce travail propose CAPI, un nouvel algorithme qui, comme BAD, combine la connaissance commune avec l'apprentissage par renforcement profond. Cependant, contrairement à BAD, CAPI donne la priorité à la propension à découvrir des politiques conjointes optimales plutôt qu'à l'évolutivité. Bien que ce choix empêche CAPI de s'adapter à des jeux aussi grands que Hanabi, les résultats empiriques démontrent que, sur les jeux auxquels CAPI s'adapte, il est capable de découvrir des politiques conjointes optimales même lorsque d'autres algorithmes modernes d'apprentissage par renforcement multi-agents sont incapables de le faire. Le code est disponible à cette URL https.

Résolution de jeux à gains communs avec itération approximative de la politique.

Résumé

Derniers documents de recherche

Le processus historique partiellement observable

Repenser les modèles formels de prise de décision multi-agents partiellement observables

Joueur de jeux

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle