Apprendre à être prudent

Résumé

Un défi majeur dans le domaine de l'apprentissage par renforcement est de développer des agents qui se comportent de manière prudente dans des situations nouvelles. Il est généralement impossible d'anticiper toutes les situations auxquelles un système autonome peut être confronté ou le comportement qui permettrait d'éviter au mieux les mauvais résultats. Un agent qui pourrait apprendre à être prudent surmonterait ce défi en découvrant par lui-même quand et comment se comporter prudemment. En revanche, les approches actuelles intègrent généralement des informations de sécurité spécifiques à la tâche ou des comportements prudents explicites dans le système, ce qui est source d'erreurs et impose des charges supplémentaires aux praticiens. Dans cet article, nous présentons à la fois une séquence de tâches où le comportement prudent devient de moins en moins évident, ainsi qu'un algorithme pour démontrer qu'il est possible pour un système de \emph{learn} être prudent. Les caractéristiques essentielles de notre algorithme sont qu'il caractérise l'incertitude de la fonction de récompense sans information de sécurité spécifique à la tâche et utilise cette incertitude pour construire une politique robuste. Plus précisément, nous construisons des politiques robustes à l'aide d'un sous-programme de minimisation du regret contrefactuel (CFR) k-of-N, compte tenu de l'incertitude de la fonction de récompense apprise, représentée par une croyance d'ensemble du réseau neuronal. Ces politiques font preuve de prudence dans chacune de nos tâches sans aucun réglage de sécurité spécifique à la tâche.

Apprendre à être prudent

Résumé

Derniers documents de recherche

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Vers une estimation efficace de la valeur basée sur le gradient

Apprentissage récurrent en ligne et en temps réel à l'aide de connexions éparses et d'un apprentissage sélectif

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle