Poste de recherche

Scan2Cap : Sous-titrage dense en fonction du contexte dans les scans RVB-D

Résumé

Nous présentons la tâche de sous-titrage dense dans des scans 3D provenant de capteurs RVB-D de base. En entrée, nous supposons un nuage de points d'une scène 3D ; la sortie attendue est constituée des boîtes englobantes et des descriptions des objets sous-jacents. Pour résoudre les problèmes de détection et de description d'objets 3D, nous proposons Scan2Cap, une méthode formée de bout en bout, pour détecter les objets dans la scène d'entrée et les décrire en langage naturel. Nous utilisons un mécanisme d'attention qui génère des jetons descriptifs tout en faisant référence aux composants connexes dans le contexte local. Pour refléter les relations entre les objets (c'est-à-dire les relations spatiales relatives) dans les légendes générées, nous utilisons un module de graphe de passage de messages pour faciliter l'apprentissage des caractéristiques des relations entre les objets. Notre méthode peut localiser et décrire efficacement les objets 3D dans les scènes de l'ensemble de données ScanRefer, surpassant les méthodes de base 2D par une marge significative (27,61% CiDEr@0.5IoUimprovement).

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !