Poste de recherche
L'abstraction temporelle est une exigence clé pour les agents qui prennent des décisions sur de longs horizons temporels, un défi fondamental pour l'apprentissage par renforcement. Il existe de nombreuses raisons pour lesquelles les estimations de valeur à plusieurs échelles de temps peuvent être utiles ; des travaux récents ont montré que les estimations de valeur à différentes échelles de temps peuvent servir de base à la création de fonctions d'actualisation plus avancées et à l'apprentissage de représentations. De plus, les prédictions à différentes échelles de temps permettent d'élargir le modèle de l'environnement d'un agent. Une approche prédictive intéressante dans un contexte d'apprentissage en ligne est la fonction de valeur générale (GVF), qui représente les modèles du monde d'un agent comme une collection de questions prédictives définies chacune par une politique, un signal à prédire et une échelle de temps de prédiction. Dans cet article, nous présentons Γ-nets, une méthode pour généraliser l'estimation de la fonction de valeur sur l'échelle de temps, permettant à une GVF donnée d'être entraînée et interrogée pour des échelles de temps arbitraires afin d'augmenter considérablement la capacité de prédiction et l'évolutivité d'un modèle basé sur la GVF. La clé de notre approche est d'utiliser l'échelle de temps comme l'une des entrées de l'estimateur de valeur. Par conséquent, la cible de prédiction pour toute échelle de temps est disponible à chaque pas de temps et nous sommes libres de nous entraîner sur un nombre quelconque d'échelles de temps. Nous présentons d'abord deux démonstrations en 1) prédisant une onde carrée et 2) prédisant des signaux sensorimoteurs sur un bras de robot en utilisant un approximateur de fonction linéaire. Ensuite, nous évaluons empiriquement Γ-nets dans le cadre de l'apprentissage par renforcement profond en utilisant l'évaluation de politiques sur un ensemble de jeux vidéo Atari. Nos résultats montrent que Γ-nets peut être efficace pour prédire des échelles de temps arbitraires, avec seulement un faible coût en termes de précision par rapport aux estimateurs d'apprentissage pour des échelles de temps fixes. Γ-nets fournit une méthode pour faire des prédictions précises et compactes à de nombreuses échelles de temps sans exiger une connaissance a priori de la tâche, ce qui en fait une contribution précieuse aux travaux en cours sur la planification basée sur des modèles, l'apprentissage par représentation et les algorithmes d'apprentissage tout au long de la vie.
3 mars 2023
Poste de recherche
26 février 2023
Poste de recherche
15 septembre 2022
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.