Nouvelles
Les Tea Time Talks sont de retour ! Tout au long de l'été, assistez à des exposés de 20 minutes sur des idées de départ, des recherches futures et des sujets techniques présentés par des étudiants, des professeurs et des invités. Présentées par Amii et le laboratoire RLAI de l'Université de l'Alberta, les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer.
Regardez maintenant une sélection de conférences de la cinquième semaine de la série :
Résumé : Un défi souvent ignoré de l'apprentissage par renforcement dans le monde réel est que, contrairement aux environnements simulés standards, le monde réel ne fait pas de pause lorsque les agents font des mises à jour d'apprentissage. Dans ce TTT, nous étudions, pour le même algorithme (Soft Actor-Critic), comment la version implémentée de manière séquentielle et la version implémentée de manière asynchrone diffèrent en termes de performance dans les tâches de contrôle robotique du monde réel.
Résumé : AlphaZero a atteint des performances surhumaines aux jeux d'échecs, de Shogi et de Go en utilisant un algorithme général d'apprentissage par renforcement. AlphaZero utilise l'exploration dans ses jeux d'autodéfense de sorte qu'il rencontre des états dans tout l'espace d'état, ce qui lui permet d'apprendre quels états et actions mènent à la victoire. Alors qu'AlphaZero utilise un mécanisme robuste pour l'exploration dans sa recherche, il a des mécanismes plus simplistes pour l'exploration pendant l'entraînement à l'auto-participation : la perturbation aléatoire de la politique apprise pendant la recherche et la sélection stochastique des actions vers le début du jeu. Nous présentons une stratégie d'entraînement alternative appelée Go-Exploit qui visite et revisite de manière plus fiable les états de l'espace d'état et réduit le biais de l'exploration sur les cibles d'apprentissage. Go-Exploit, inspiré de Go-Explore, maintient une archive des états d'intérêt précédemment visités et échantillonne à partir de cette archive pour déterminer l'état de départ des trajectoires d'auto-apprentissage. Nous montrons dans les jeux Connect Four et 9x9 Go que Go-Exploit visite et revisite avec succès plus d'états dans l'espace d'état et apprend plus efficacement qu'AlphaZero.
Vous aimez ce que vous apprenez ici ? Plongez plus profondément dans le monde de l'apprentissage par renforcement avec la spécialisation en apprentissage par renforcement, proposée par l'Université d'Alberta et Amii. Enseignée par Martha White et Adam White, cette spécialisation explore la façon dont les solutions d'apprentissage par renforcement aident à résoudre des problèmes du monde réel par le biais d'une interaction par essais et erreurs, en montrant aux apprenants comment mettre en œuvre une solution d'apprentissage par renforcement complète du début à la fin. Inscrivez-vous à cette spécialisation dès maintenant!
7 mai 2024
Nouvelles
Découvrez les avancées présentées par les chercheurs d'Amii lors de la 2024 International Conference on Learning Representation.
2 mai 2024
Nouvelles
Lisez notre mise à jour mensuelle sur la croissance de l'écosystème de l'intelligence artificielle en Alberta et sur les possibilités d'y participer.
8 avril 2024
Nouvelles
Les boursiers d'Amii partagent des conseils sur la manière de tirer le meilleur parti de votre expérience de la conférence.
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.