Poste de recherche

Planification efficace dans les grands PDM avec une approximation faible de la fonction linéaire.

Résumé

Les processus de décision de Markov (PDM) à grande échelle nécessitent des algorithmes de planification dont le temps d'exécution est indépendant du nombre d'états du PDM. Nous considérons le problème de la planification dans les MDPs en utilisant l'approximation linéaire de la fonction de valeur avec seulement de faibles exigences : une faible erreur d'approximation pour la fonction de valeur optimale, et un petit ensemble d'états " centraux " dont les caractéristiques couvrent celles des autres états. En particulier, nous ne faisons aucune hypothèse sur la représentabilité des politiques ou des fonctions de valeur des politiques non-optimales. Notre algorithme produit des actions quasi-optimales pour n'importe quel état en utilisant un oracle génératif (simulateur) pour le MDP, tandis que son temps de calcul s'échelonne de façon polynomiale avec le nombre de caractéristiques, d'états centraux et d'actions et l'horizon effectif.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !