Apprentissage sous sécurité bayésienne invariable

Résumé

Un ensemble de travaux récents traite des contraintes de sécurité dans les systèmes d'exploration-exploitation. De telles contraintes apparaissent lorsque, par exemple, l'exploration est effectuée par des individus dont le bien-être doit être équilibré par rapport au bien-être global. Dans cet article, nous adoptons un modèle inspiré de travaux récents sur un cadre de type bandit pour les recommandations. Nous contribuons à cette ligne de littérature en introduisant une contrainte de sécurité qui doit être respectée à chaque tour et qui détermine que la valeur attendue à chaque tour est supérieure à un seuil donné. En raison de notre modélisation, la politique d'exploration et d'exploitation sûre mérite une planification minutieuse, sinon, elle conduira à un bien-être sous-optimal. Nous concevons un algorithme asymptotiquement optimal pour ce paramètre et analysons son taux de convergence en fonction de l'instance.

Apprentissage sous sécurité bayésienne invariable

Résumé

Derniers documents de recherche

Le processus historique partiellement observable

Repenser les modèles formels de prise de décision multi-agents partiellement observables

Joueur de jeux

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle