Poste de recherche

Apprendre à être prudent

Résumé

Un défi majeur dans le domaine de l'apprentissage par renforcement est de développer des agents qui se comportent de manière prudente dans des situations nouvelles. Il est généralement impossible d'anticiper toutes les situations auxquelles un système autonome peut être confronté ou le comportement qui permettrait d'éviter au mieux les mauvais résultats. Un agent qui pourrait apprendre à être prudent surmonterait ce défi en découvrant par lui-même quand et comment se comporter prudemment. En revanche, les approches actuelles intègrent généralement des informations de sécurité spécifiques à la tâche ou des comportements prudents explicites dans le système, ce qui est source d'erreurs et impose des charges supplémentaires aux praticiens. Dans cet article, nous présentons à la fois une séquence de tâches où le comportement prudent devient de moins en moins évident, ainsi qu'un algorithme pour démontrer qu'il est possible pour un système de \emph{learn} être prudent. Les caractéristiques essentielles de notre algorithme sont qu'il caractérise l'incertitude de la fonction de récompense sans information de sécurité spécifique à la tâche et utilise cette incertitude pour construire une politique robuste. Plus précisément, nous construisons des politiques robustes à l'aide d'un sous-programme de minimisation du regret contrefactuel (CFR) k-of-N, compte tenu de l'incertitude de la fonction de récompense apprise, représentée par une croyance d'ensemble du réseau neuronal. Ces politiques font preuve de prudence dans chacune de nos tâches sans aucun réglage de sécurité spécifique à la tâche.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !