Poste de recherche
Nous considérons le problème de l'utilisation judicieuse d'un budget limité pour étiqueter un petit sous-ensemble d'un grand ensemble de données non étiquetées. Par exemple, considérons le problème de la désambiguïsation du sens des mots. Pour tout mot, nous disposons d'un ensemble d'étiquettes candidates provenant d'une base de connaissances, mais l'ensemble d'étiquettes n'est pas nécessairement représentatif de ce qui se passe dans les données : il peut exister des étiquettes dans la base de connaissances qui apparaissent très rarement dans le corpus parce que le sens est rare en anglais moderne ; et inversement, il peut exister des étiquettes vraies qui n'existent pas dans notre base de connaissances. Notre objectif est d'obtenir un classificateur qui fonctionne aussi bien que possible sur des exemples de chaque "classe commune" qui se produit avec une fréquence supérieure à un seuil donné dans l'ensemble non étiqueté, tout en annotant aussi peu d'exemples que possible de "classes rares" dont les étiquettes se produisent avec moins de cette fréquence. Le problème est que nous ne savons pas quelles étiquettes sont communes et lesquelles sont rares, et que la distribution réelle des étiquettes peut présenter une asymétrie extrême. Nous décrivons une approche d'apprentissage actif qui (1) recherche explicitement les classes rares en exploitant les espaces d'intégration contextuels fournis par les modèles de langage modernes, et (2) intègre une règle d'arrêt qui ignore les classes une fois que nous avons prouvé qu'elles se produisent en dessous de notre seuil cible avec une forte probabilité. Nous prouvons que notre algorithme ne coûte que logarithmiquement plus cher qu'une approche hypothétique qui connaît toutes les fréquences réelles des étiquettes et nous montrons expérimentalement que l'incorporation de la recherche automatisée peut réduire considérablement le nombre d'échantillons nécessaires pour atteindre les niveaux de précision visés.
26 février 2023
Poste de recherche
23 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.