Poste de recherche
Dans cet article, nous étudions le problème de l'apprentissage sûr du reclassement en ligne, où les commentaires des utilisateurs sont utilisés pour améliorer la qualité des listes affichées. L'apprentissage du classement a traditionnellement été étudié dans deux contextes. Dans le cadre hors ligne, les classeurs sont généralement appris à partir d'étiquettes de pertinence créées par des juges. Cette approche est généralement devenue la norme dans les applications industrielles du classement, telles que la recherche. Cependant, cette approche manque d'exploration et est donc limitée par le contenu informatif des données d'entraînement hors ligne. Dans le cadre en ligne, un algorithme peut expérimenter avec des listes et apprendre à partir du feedback sur celles-ci de manière séquentielle. Les algorithmes Bandit sont bien adaptés à ce contexte, mais ils ont tendance à apprendre les préférences des utilisateurs à partir de zéro, ce qui entraîne un coût initial d'exploration élevé. Cela pose un problème supplémentaire d'exploration sûre dans les listes classées. Nous proposons BubbleRank, un algorithme de bandit pour le re-classement sécurisé qui combine les forces des paramètres hors ligne et en ligne. L'algorithme part d'une liste de base initiale et l'améliore en ligne en échangeant progressivement des éléments moins attrayants classés plus haut contre des éléments plus attrayants classés plus bas. Nous prouvons une limite supérieure sur le regret à n étapes de BubbleRank qui se dégrade gracieusement avec la qualité de la liste de base initiale. Nos résultats théoriques sont étayés par des expériences approfondies sur un ensemble de données de clics à grande échelle dans le monde réel.
15 février 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Adam White, boursier Amii et titulaire de la chaire d'IA de l'ICRA au Canada : Apprentissage des traces emphatiques attendues pour le RL profond
27 septembre 2021
Poste de recherche
13 juillet 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.