Institut de l'intelligence artificielle de l'Alberta

Série de séminaires sur l'IA 2024 : Recherche guidée par une politique avec Levi Lelis

Publié

12 mars 2024

Le séminaire sur l'intelligence artificielle est une réunion hebdomadaire à l'Université de l'Alberta où les chercheurs intéressés par l'intelligence artificielle (IA) peuvent partager leurs recherches. Les présentateurs comprennent à la fois des conférenciers locaux de l'Université de l'Alberta et des visiteurs d'autres institutions. Les sujets peuvent être liés de quelque manière que ce soit à l'intelligence artificielle, qu'il s'agisse de travaux théoriques fondamentaux, d'applications innovantes des techniques d'IA ou de nouveaux domaines et problèmes.

Le 29 février Levi Lelis - boursier et titulaire de la chaire canadienne CIFAR d'IA à Amii, - a présenté "Policy-Guided Heuristic Search" lors du séminaire sur l'IA.

Résumé : Lelis présente la recherche par arbre de Levin (LTS) et certaines de ses variantes. LTS est un algorithme de recherche dans l'espace d'état qui utilise une politique pour guider sa recherche. Les variantes de LTS utilisent à la fois une politique et une fonction heuristique pour guider la recherche. Les algorithmes de la famille de Levin offrent des garanties quant au nombre d'expansions nécessaires pour trouver une solution aux problèmes de recherche.

Ces garanties dépendent de la qualité de la politique et de la fonction heuristique qui guide la recherche. Les garanties sont importantes car elles offrent une fonction de perte - la perte de Levin - qui nous permet d'apprendre des politiques qui minimisent la taille de l'arbre de recherche résultant. Il explore les schémas d'apprentissage à l'aide de réseaux neuronaux et de modèles contextuels, ces derniers offrant des garanties supplémentaires. En particulier, les paramètres des modèles contextuels optimisant la perte de Levin peuvent être dérivés en résolvant un problème d'optimisation convexe. Il présente également quelques résultats empiriques. En particulier, Lelis montre ce qui pourrait être la politique la plus rapide, apprise à partir de données, capable de résoudre des instances aléatoires du Rubik's Cube.

Regardez la présentation complète ci-dessous :

Auteurs

Partager