Les discussions de l'heure du thé 2021 : Semaine 5

Les Tea Time Talks sont de retour ! Tout au long de l'été, assistez à des exposés de 20 minutes sur des idées de départ, des recherches futures et des sujets techniques présentés par des étudiants, des professeurs et des invités. Présentées par Amii et le laboratoire RLAI de l'Université de l'Alberta, les conférences sont une manière détendue et informelle d'entendre les leaders de l'IA discuter des futures lignes de recherche qu'ils pourraient explorer.

Regardez maintenant une sélection de conférences de la cinquième semaine de la série :

Yufeng Yuan : Apprentissage par renforcement asynchrone pour le contrôle en temps réel des robots physiques.

Résumé : Un défi souvent ignoré de l'apprentissage par renforcement dans le monde réel est que, contrairement aux environnements simulés standards, le monde réel ne fait pas de pause lorsque les agents font des mises à jour d'apprentissage. Dans ce TTT, nous étudions, pour le même algorithme (Soft Actor-Critic), comment la version implémentée de manière séquentielle et la version implémentée de manière asynchrone diffèrent en termes de performance dans les tâches de contrôle robotique du monde réel.

Alex Trudeau : Go-Exploit

Résumé : AlphaZero a atteint des performances surhumaines aux jeux d'échecs, de Shogi et de Go en utilisant un algorithme général d'apprentissage par renforcement. AlphaZero utilise l'exploration dans ses jeux d'autodéfense de sorte qu'il rencontre des états dans tout l'espace d'état, ce qui lui permet d'apprendre quels états et actions mènent à la victoire. Alors qu'AlphaZero utilise un mécanisme robuste pour l'exploration dans sa recherche, il a des mécanismes plus simplistes pour l'exploration pendant l'entraînement à l'auto-participation : la perturbation aléatoire de la politique apprise pendant la recherche et la sélection stochastique des actions vers le début du jeu. Nous présentons une stratégie d'entraînement alternative appelée Go-Exploit qui visite et revisite de manière plus fiable les états de l'espace d'état et réduit le biais de l'exploration sur les cibles d'apprentissage. Go-Exploit, inspiré de Go-Explore, maintient une archive des états d'intérêt précédemment visités et échantillonne à partir de cette archive pour déterminer l'état de départ des trajectoires d'auto-apprentissage. Nous montrons dans les jeux Connect Four et 9x9 Go que Go-Exploit visite et revisite avec succès plus d'états dans l'espace d'état et apprend plus efficacement qu'AlphaZero.

Vous aimez ce que vous apprenez ici ? Plongez plus profondément dans le monde de l'apprentissage par renforcement avec la spécialisation en apprentissage par renforcement, proposée par l'Université d'Alberta et Amii. Enseignée par Martha White et Adam White, cette spécialisation explore la façon dont les solutions d'apprentissage par renforcement aident à résoudre des problèmes du monde réel par le biais d'une interaction par essais et erreurs, en montrant aux apprenants comment mettre en œuvre une solution d'apprentissage par renforcement complète du début à la fin. Inscrivez-vous à cette spécialisation dès maintenant!

Les discussions de l'heure du thé 2021 : Semaine 5

Yufeng Yuan : Apprentissage par renforcement asynchrone pour le contrôle en temps réel des robots physiques.

Alex Trudeau : Go-Exploit

Derniers articles d'actualité

Les communications et présentations d'Amii à l'ICLR 2024 portent sur l'évolutivité, l'apprentissage en temps réel et plus encore.

Amii Monthly News - La limite supérieure est presque atteinte

Déchiffrer le code de la conférence

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle