Poste de recherche

D3Net : Une architecture haut-parleur-auditeur unifiée pour le sous-titrage dense et la mise à la terre visuelle en 3D

Résumé : Des études récentes sur le sous-titrage dense et la base visuelle en 3D ont obtenu des résultats impressionnants. Malgré les progrès réalisés dans ces deux domaines, la quantité limitée de données disponibles sur le langage de la vision en 3D pose des problèmes d'ajustement excessif pour les méthodes d'ancrage visuel et de sous-titrage dense en 3D. De plus, la manière de décrire de manière discriminante des objets dans des environnements 3D complexes n'est pas encore complètement étudiée. Pour relever ces défis, nous présentons D3Net, une architecture neuronale de haut-parleur-auditeur de bout en bout qui peut détecter, décrire et discriminer. Notre D3Net unifie le sous-titrage dense et la base visuelle en 3D d'une manière autocritique. Cette propriété auto-critique du D3Net introduit également une capacité de discrimination lors de la génération de légendes d'objets et permet un apprentissage semi-supervisé sur des données ScanNet avec des descriptions partiellement annotées. Notre méthode surpasse les méthodes SOTA dans les deux tâches sur le jeu de données ScanRefer, surpassant la méthode de sous-titrage dense 3D de SOTA par une marge significative.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !