D3Net : Une architecture haut-parleur-auditeur unifiée pour le sous-titrage dense et la mise à la terre visuelle en 3D

Résumé : Des études récentes sur le sous-titrage dense et la base visuelle en 3D ont obtenu des résultats impressionnants. Malgré les progrès réalisés dans ces deux domaines, la quantité limitée de données disponibles sur le langage de la vision en 3D pose des problèmes d'ajustement excessif pour les méthodes d'ancrage visuel et de sous-titrage dense en 3D. De plus, la manière de décrire de manière discriminante des objets dans des environnements 3D complexes n'est pas encore complètement étudiée. Pour relever ces défis, nous présentons D3Net, une architecture neuronale de haut-parleur-auditeur de bout en bout qui peut détecter, décrire et discriminer. Notre D3Net unifie le sous-titrage dense et la base visuelle en 3D d'une manière autocritique. Cette propriété auto-critique du D3Net introduit également une capacité de discrimination lors de la génération de légendes d'objets et permet un apprentissage semi-supervisé sur des données ScanNet avec des descriptions partiellement annotées. Notre méthode surpasse les méthodes SOTA dans les deux tâches sur le jeu de données ScanRefer, surpassant la méthode de sous-titrage dense 3D de SOTA par une marge significative.

D3Net : Une architecture haut-parleur-auditeur unifiée pour le sous-titrage dense et la mise à la terre visuelle en 3D

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Modélisation et prévision des cas de COVID-19 en utilisant des sous-populations latentes

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle