Poste de recherche
Résumé : Les travaux récents sur les pertes contrastives pour l'apprentissage d'enchâssements conjoints sur des données multimodales ont été couronnés de succès pour des tâches en aval telles que la récupération et la classification. D'autre part, les travaux sur l'apprentissage de représentations conjointes pour les formes 3D et le texte se sont jusqu'à présent principalement concentrés sur l'amélioration des incorporations par la modélisation de l'attention complexe entre les représentations, ou l'apprentissage multi-tâches. Nous montrons qu'avec l'apprentissage contrastif par lots importants, nous obtenons un SoTA pour la récupération de formes textuelles sans mécanismes d'attention complexes ni pertes. Des travaux antérieurs sur les représentations 3D et textuelles ont également porté sur l'apprentissage de représentations bimodales en utilisant soit des voxels, soit des images multi-vues avec du texte. À cette fin, nous proposons un schéma d'apprentissage trimodal pour obtenir des performances encore plus élevées et de meilleures représentations pour toutes les modalités.
3 mars 2023
Poste de recherche
9 février 2023
Poste de recherche
31 janvier 2023
Poste de recherche
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.