Apprendre à être prudent

Publié : 12 Oct 2025 | Lire le papier

Auteurs

Montaser Mohammedalamen, Dustin Morrill, Alexander Sieusahai, Yash Satsangi, Michael Bowling

Résumé

L'un des principaux défis dans le domaine de l'apprentissage par renforcement est de développer des agents qui se comportent de manière prudente dans des situations nouvelles. Il est généralement impossible d'anticiper toutes les situations auxquelles un système autonome peut être confronté ou le comportement qui permettrait le mieux d'éviter les mauvais résultats. Un agent capable d'apprendre à être prudent surmonterait ce défi en découvrant par lui-même quand et comment se comporter avec prudence. En revanche, les approches actuelles intègrent généralement des informations de sécurité spécifiques à la tâche ou des comportements explicitement prudents dans le système, ce qui est source d'erreurs et impose des charges supplémentaires aux praticiens. Dans cet article, nous présentons à la fois une séquence de tâches où le comportement prudent devient de moins en moins évident, ainsi qu'un algorithme démontrant qu'il est possible pour un système d'apprendre à être prudent. Les caractéristiques essentielles de notre algorithme sont qu'il caractérise l'incertitude de la fonction de récompense sans information de sécurité spécifique à la tâche et qu'il utilise cette incertitude pour construire une politique robuste. Plus précisément, nous construisons des politiques robustes avec un sous-programme CFR de minimisation des regrets contrefactuels K de N, compte tenu de l'incertitude de la fonction de récompense apprise, représentée par la croyance d'un ensemble de réseaux neuronaux. Ces politiques font preuve de prudence dans chacune de nos tâches sans aucun réglage de sécurité spécifique à la tâche.

Notre code est disponible à l'adresse suivante : https://github.com/montaserFath/Learning-to-be-Cautious.