TriCoLo : perte trimodale contrastive pour l'extraction fine de texte en forme.

Résumé : Les travaux récents sur les pertes contrastives pour l'apprentissage d'enchâssements conjoints sur des données multimodales ont été couronnés de succès pour des tâches en aval telles que la récupération et la classification. D'autre part, les travaux sur l'apprentissage de représentations conjointes pour les formes 3D et le texte se sont jusqu'à présent principalement concentrés sur l'amélioration des incorporations par la modélisation de l'attention complexe entre les représentations, ou l'apprentissage multi-tâches. Nous montrons qu'avec l'apprentissage contrastif par lots importants, nous obtenons un SoTA pour la récupération de formes textuelles sans mécanismes d'attention complexes ni pertes. Des travaux antérieurs sur les représentations 3D et textuelles ont également porté sur l'apprentissage de représentations bimodales en utilisant soit des voxels, soit des images multi-vues avec du texte. À cette fin, nous proposons un schéma d'apprentissage trimodal pour obtenir des performances encore plus élevées et de meilleures représentations pour toutes les modalités.

TriCoLo : perte trimodale contrastive pour l'extraction fine de texte en forme.

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Modélisation et prévision des cas de COVID-19 en utilisant des sous-populations latentes

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle