Poste de recherche

TriCoLo : perte trimodale contrastive pour l'extraction fine de texte en forme.

Résumé : Les travaux récents sur les pertes contrastives pour l'apprentissage d'enchâssements conjoints sur des données multimodales ont été couronnés de succès pour des tâches en aval telles que la récupération et la classification. D'autre part, les travaux sur l'apprentissage de représentations conjointes pour les formes 3D et le texte se sont jusqu'à présent principalement concentrés sur l'amélioration des incorporations par la modélisation de l'attention complexe entre les représentations, ou l'apprentissage multi-tâches. Nous montrons qu'avec l'apprentissage contrastif par lots importants, nous obtenons un SoTA pour la récupération de formes textuelles sans mécanismes d'attention complexes ni pertes. Des travaux antérieurs sur les représentations 3D et textuelles ont également porté sur l'apprentissage de représentations bimodales en utilisant soit des voxels, soit des images multi-vues avec du texte. À cette fin, nous proposons un schéma d'apprentissage trimodal pour obtenir des performances encore plus élevées et de meilleures représentations pour toutes les modalités.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !