Poste de recherche

Une attention qui ne s'explique pas

Résumé

Les modèles basés sur l'architecture Transformer ont atteint une meilleure précision que ceux basés sur des architectures concurrentes pour un large ensemble de tâches. Une caractéristique unique du Transformer est l'application universelle d'un mécanisme d'auto-attention, qui permet la libre circulation de l'information à des distances arbitraires. En suivant une vision probabiliste de l'attention via le modèle de mélange gaussien, nous trouvons des preuves empiriques que l'attention du Transformer tend à "expliquer" certains neurones d'entrée. Pour compenser ce phénomène, nous proposons un schéma d'attention doublement normalisé qui est simple à mettre en œuvre et qui fournit des garanties théoriques pour éviter l'effet d'"explication" sans introduire de coût de calcul ou de mémoire significatif. Empiriquement, nous montrons que les nouveaux schémas d'attention permettent d'améliorer les performances sur plusieurs repères bien connus.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !