Poste de recherche
Les modèles basés sur l'architecture Transformer ont atteint une meilleure précision que ceux basés sur des architectures concurrentes pour un large ensemble de tâches. Une caractéristique unique du Transformer est l'application universelle d'un mécanisme d'auto-attention, qui permet la libre circulation de l'information à des distances arbitraires. En suivant une vision probabiliste de l'attention via le modèle de mélange gaussien, nous trouvons des preuves empiriques que l'attention du Transformer tend à "expliquer" certains neurones d'entrée. Pour compenser ce phénomène, nous proposons un schéma d'attention doublement normalisé qui est simple à mettre en œuvre et qui fournit des garanties théoriques pour éviter l'effet d'"explication" sans introduire de coût de calcul ou de mémoire significatif. Empiriquement, nous montrons que les nouveaux schémas d'attention permettent d'améliorer les performances sur plusieurs repères bien connus.
15 février 2022
Poste de recherche
Lisez ce document de recherche, co-écrit par Osmar Zaiane, boursier Amii et président du CIFAR AI au Canada : UCTransNet : Repenser les connexions de saut dans U-Net d'une perspective de canal avec Transformer.
27 septembre 2021
Poste de recherche
17 septembre 2021
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.