Nouvelles

Ce que nous avons vu cette année à la conférence sur la vision artificielle et la reconnaissance des formes (Computer Vision and Pattern Recognition Conference 2023) : Faits marquants et tendances

(Crédit : CVPR 2023/Twitter)

Quatre membres de l'équipe d'Amii ont récemment assisté à la conférence sur la vision artificielle et la reconnaissance des formes (CVPR), parrainée par la Computer Vision Foundation (CVF) et l'Institute for Electrical and Electronics Engineers (IEEE). Dans la deuxième partie ci-dessous, nous présentons les principaux résultats et articles qui ont retenu notre attention. Précédemment, dans la première partie, nous avons présenté les enseignements que l'équipe a tirés des principales présentations.

Voici un bref aperçu des technologies et tendances nouvelles ou améliorées qui ont retenu notre attention.

Transformateurs de vision (ViTs)

Inspirés par le succès des transformateurs dans le traitement du langage naturel (NLP), les ViTs ont été initialement introduits par Google Research en 2020 comme une alternative aux architectures convolutionnelles (CNN). Bien que les ViTs aient déjà atteint les meilleures performances dans de nombreuses tâches de vision par ordinateur, il reste encore des défis à relever, dont certains ont été abordés lors de la CVPR, tels que la généralisation, l'efficacité et la robustesse....

En ce qui concerne la généralisation, les travaux sur l'analyse par synthèse des ViT(AbSViT) permettent aux ViT d'extraire une représentation adaptée à la tâche qui peut plus facilement être généralisée à différentes tâches. En ce qui concerne l'efficacité, Rep IdentityFormer (RIFormer) propose de supprimer les mélangeurs de jetons de la base ViT afin de rendre l'épine dorsale de la vision plus efficace. EfficientViT de Microsoft Research est un autre travail sur l'efficacité qui suggère un nouveau bloc de construction à mémoire réduite dans les ViT pour atténuer la redondance du calcul de l'attention et créer un ViT à grande vitesse.

Enfin, en ce qui concerne la robustesse, plusieurs techniques ont été présentées pour rendre les ViTs résistants aux attaques adverses, telles que les portes dérobées architecturales, ou aux corruptions telles que le bruit et le flou.

Modèles génératifs

Les tâches de génération et d'édition d'images n'ont jamais cessé de gagner en popularité depuis l'apparition des réseaux adversoriels génératifs (GAN). En 2020, les modèles de diffusion ont ouvert la voie à la génération d'images plus diverses et de meilleure qualité tout en préservant leur structure sémantique. Les modèles de diffusion ont dominé le domaine à CVPR 2023, et il y a encore beaucoup d'intérêt potentiel pour une exploration plus poussée

dans ce domaine. Nous avons vu des travaux passionnants sur l'augmentation de la contrôlabilité du processus de génération, tels que DreamBooth et les modèles de diffusion guidée de Google Research. En outre, l'extension des modèles de diffusion à la génération de vidéos, par exemple dans VideoFusion, est une autre direction de recherche passionnante.

Modèles de base et encouragements visuels

De la même manière que les modèles de langage de grande taille décodant la signification sémantique d'une entrée textuelle sont devenus des modèles fondamentaux, les modèles pré-entraînés dans le contexte de la vision servent de blocs de construction fondamentaux pour les technologies de pointe telles que les véhicules autonomes, la robotique, les soins de santé, et bien d'autres.

Dans le domaine de la santé, Google Deepmind a été l'un des pionniers en présentant REMEDIS, un cadre d'apprentissage auto-supervisé unifié pour la construction d'une IA médicale de base permettant de relever les principaux défis translationnels de l'IA médicale, tels que la généralisation, la fiabilité et l'interactivité. La compréhension des scènes 3D a également été considérée comme un domaine prometteur pour l'intégration de modèles fondamentaux pour la vision, le graphisme et la robotique, malgré les défis fondamentaux existants en matière de collecte d'ensembles de données 3D à grande échelle, de ressources d'annotation limitées et d'échelle limitée de données d'interaction et de raisonnement 3D.

La conduite autonome a également bénéficié de modèles fondamentaux, comme l'a souligné Phil Duan dans sa présentation. Outre ces points forts, plusieurs autres communications fascinantes ont attiré l'attention des participants. MELTR (Meta Loss Transformer for Learning to Fine-tune Video Foundation Models) a démontré une approche innovante pour affiner les modèles de base vidéo à l'aide de transformateurs de métaperte. En outre, l'article intitulé Integrally Pre-Trained Transformer Pyramid Networks a présenté une méthodologie intrigante qui tire parti du pré-entraînement pour améliorer les performances des réseaux pyramidaux de transformateurs.

Les messages-guides visuels, en particulier, permettent aux modèles de base de générer des prédictions sans avoir à affiner ou à mettre à jour les poids. Au moment de l'inférence, des invites pertinentes (par exemple, des boîtes de délimitation) sont envoyées au modèle pour le guider vers la sortie souhaitée. Cependant, la construction de modèles prompts et leur formation pour qu'ils s'adaptent et réagissent aux entrées de contrôle restent un défi ouvert.

Récemment, Meta AI a publié le Segment Anything Model(SAM), premier modèle de base prompt pour la segmentation d'images. Lors de cette conférence, GLIGEN a été présenté comme un modèle de génération d'images pouvant être invité. Nous avons également constaté que des entreprises telles que Landing AI ont commencé à utiliser le guidage visuel comme outil d'étiquetage interactif des données pour certaines tâches, telles que la détection et la segmentation, car il est beaucoup plus rapide et plus facile que l'étiquetage manuel.

Modèles multimodaux

Depuis l'invention du ViT, les modèles multimodaux sont devenus plus populaires dans ce domaine. La recherche d'un espace d'intégration commun à différentes modalités telles que l'image, le texte et l'audio peut non seulement déboucher sur des modèles puissants, mais aussi promouvoir une variété d'applications multimodales novatrices. ImageBind de Meta AI a été présenté comme le premier modèle multimodal qui lie six modalités dans un seul espace d'intégration. En outre, nous avons assisté à une série impressionnante de travaux fondés sur le préapprentissage contrastif langage-image(CLIP) de l'OpenAI.

Champ de rayonnement neuronal (NeRF)

La génération de mondes virtuels en 3D hautement réalistes est l'étape clé de la création de mondes entièrement virtuels (par exemple, le Metaverse). C'est pourquoi la synthèse de scènes ou d'objets en 3D à partir d'un ensemble d'images en 2D à l'aide du Neural Radiance Field(NeRF) est très répandue depuis 2020. De nombreuses améliorations ont été apportées au NeRF pour en faire un outil puissant de génération de contenu. L'amélioration de l'efficacité, de l'évolutivité et de la fidélité sont des avancées courantes dans le domaine du NeRF. Par exemple, un article phare, MobileNerF, a introduit une nouvelle représentation du NeRF basée sur des polygones texturés afin d'optimiser le NeRF pour les appareils mobiles. F2-NeRF est un autre travail intéressant qui a permis non seulement de réduire la complexité de calcul, mais aussi d'introduire de la flexibilité sur les images capturées. D'autres recherches dans ce domaine portent sur la génération de 3D à partir d'un ensemble d'images clairsemées et sur la gestion de scènes dynamiques.

Une IA responsable

À mesure que les technologies de l'IA progressent et se généralisent, il devient primordial de mettre l'accent sur des pratiques responsables en matière d'IA. L'IA responsable englobe des principes tels que la transparence, l'équité et la protection de la vie privée, afin de garantir le déploiement éthique des systèmes d'IA. Si la conférence CVPR-2023 a présenté des avancées remarquables, elle a également mis en lumière le besoin permanent de répondre aux préoccupations en matière de protection de la vie privée dans les technologies émergentes. Des exemples tels que le projet Aria de Meta - capable d'enregistrer les activités à l'intérieur d'une maison - ou les voitures autonomes (avec des entreprises comme Tesla, Zoox, etc.) qui capturent des données sur les individus dans les espaces publics ont soulevé des questions importantes concernant l'utilisation responsable et la protection des informations personnelles. Lors de la conférence CVPR-2023, les chercheurs et les entreprises se sont montrés très conscients de ces problèmes de protection de la vie privée et ont collaboré avec des experts de diverses disciplines pour trouver des solutions. Cet effort de collaboration vise à favoriser une compréhension globale des avancées technologiques et de leur impact sur les individus, afin de préserver la vie privée et la sécurité de tous.

Apprentissage par renforcement et vision

En tant que l'un des leaders mondiaux de l'apprentissage par renforcement (RL), Amii était particulièrement intéressé et enthousiaste à l'idée d'explorer la synergie entre le RL et les applications basées sur la vision. GAIA-1, un modèle de conduite autonome développé par Wayve, est un exemple frappant de cette combinaison. En intégrant des techniques de RL à des entrées vidéo, textuelles et d'action, GAIA-1 a généré des vidéos de conduite réalistes tout en démontrant un contrôle fin sur le comportement du véhicule et les caractéristiques de la scène. Sa capacité à prédire plusieurs futurs plausibles et à extrapoler à de nouveaux scénarios a mis en évidence les capacités révolutionnaires du modèle en matière d'évaluation de la sécurité et de traitement des cas particuliers.

En outre, l'apprentissage par reconnaissance visuelle a émergé comme un domaine captivant, intégrant de manière transparente l'apprentissage par reconnaissance visuelle avec des observations visuelles pour dériver des représentations d'état directement à partir d'images ou de trames vidéo. L'apprentissage auto-supervisé de la représentation par similitudes appariées (PSRL), une contribution notable, a relevé le défi de capturer les structures spatiales globales et locales dans le cadre de l'apprentissage par la logique de la vision. La conférence a également été l'occasion d'une recherche passionnante sur l'apprentissage par ressemblance appliqué à la vision par ordinateur. Une attaque par inversion de modèle en boîte noire a démontré comment les agents RL pouvaient reconstruire les données privées utilisées pour former les modèles ML, en atteignant une performance d'attaque SOTA. En outre, ESPER (Extending Sensory PErception with Reinforcement learning) a permis à des modèles pré-entraînés en texte seul de s'attaquer à des tâches multimodales telles que le raisonnement par le bon sens visuel, en surpassant les approches précédentes et en fournissant un ensemble de données de référence (ESPDataset) pour une évaluation complète.

La synergie entre la RL et la vision par ordinateur est à l'origine de percées dans diverses applications, révolutionnant les industries et inspirant les progrès futurs. Cette collaboration ouvre la voie à des possibilités passionnantes et à des solutions inédites pour relever des défis complexes dans le monde réel.

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !