Poste de recherche
Le masquage des tokens de manière uniforme et aléatoire constitue un défaut courant dans le pré-entraînement des modèles de langage masqué (MLM) tels que BERT. Nous montrons qu'un tel masquage uniforme permet à un MLM de minimiser son objectif d'apprentissage en s'accrochant à des signaux locaux peu profonds, ce qui entraîne une inefficacité du pré-entraînement et des performances sous-optimales en aval. Pour remédier à ce problème, nous proposons le masquage PMI, une stratégie de masquage basée sur le concept d'information mutuelle ponctuelle (PMI), qui masque conjointement un n-gramme token s'il présente une collocation élevée dans le corpus. Le masquage PMI motive, unifie et améliore des approches antérieures plus heuristiques qui tentent de remédier à l'inconvénient du masquage uniforme aléatoire des tokens, comme le masquage de mots entiers, le masquage d'entités/phrases et le masquage d'intervalles aléatoires. Plus précisément, nous montrons expérimentalement que PMI-Masking atteint la performance des approches de masquage précédentes en deux fois moins de temps d'apprentissage, et améliore constamment la performance à la fin de l'apprentissage.
26 février 2023
Poste de recherche
23 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.