Poste de recherche
Nous présentons la tâche de localisation d'objets 3D dans des scans RVB-D en utilisant des descriptions en langage naturel. En entrée, nous supposons un nuage de points d'une scène 3D scannée ainsi qu'une description en forme libre d'un objet cible spécifié. Pour aborder cette tâche, nous proposons ScanRefer, qui apprend un descripteur fusionné à partir de propositions d'objets 3D et d'enchâssements de phrases codées. Ce descripteur fusionné met en corrélation les expressions linguistiques avec les caractéristiques géométriques, permettant la régression de la boîte de délimitation 3D d'un objet cible. Nous présentons également le jeu de données ScanRefer, qui contient 51 583 descriptions de 11 046 objets provenant de 800 scènes ScanNet [8]. ScanRefer est le premier effort à grande échelle pour effectuer la localisation d'objets par l'expression du langage naturel directement en 3D^1 .
Remerciements
Nous tenons à remercier les annotateurs experts Josefina Manieu Seguel et Rinu Shaji Mariam, tous les travailleurs anonymes sur Amazon Mechanical Turk et les étudiants bénévoles (Akshit Sharma, Yue Ruan, Ali Gholami, Yasaman Etesam, Leon Kochiev, Sonia Raychaudhuri) de l'Université Simon Fraser pour leurs efforts dans la construction de l'ensemble de données ScanRefer, et Akshit Sharma pour son aide avec les statistiques et les chiffres. Ce travail est financé par Google (AugmentedPerception), la subvention de démarrage ERC Scan2CAD (804724), et une bourse d'études Google. Nous tenons également à remercier le soutien des bourses TUM-IAS Rudolf M¨oßbauer et Hans Fischer (Focus Group Visual Computing), ainsi que la Fondation allemande pour la recherche (DFG) dans le cadre de la subvention Making Machine Learning on Static and Dynamic 3D Data Practical. Angel X. Chang est soutenu par le programme de chaire d'IA de l'ICAR Canada. Enfin, nous remercions Angela Dai pour la voix off de la vidéo.
26 février 2023
Poste de recherche
23 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.