Institut de l'intelligence artificielle de l'Alberta

Sécurité et efficacité de l'IA générique : Les recherches d'Amii à l'AAAI 2025

Publié

26 février 2025

Catégories

Perspectives

Sujet

Recherche

Amii est heureux de mettre en lumière les recherches que ses scientifiques et ses étudiants présentent à la 39e conférence annuelle de l'AAAI sur l'intelligence artificielleCes travaux visent notamment à rendre les modèles de langage visuel plus sûrs contre les tentatives de génération de contenu nuisible et à améliorer la capacité des agents d'intelligence artificielle à planifier des actions dans des environnements complexes.

 Cette année, la conférence se tiendra à Philadelphie du 25 février au 4 mars.

La conférence AAAI 2025 est organisée par l'Association for the Advancement of Artificial Intelligence (Association pour l'avancement de l'intelligence artificielle) et constitue l'un des principaux événements internationaux pour les chercheurs en IA. La conférence de l'AAAI couvre un large éventail de sujets dans le domaine de l'IA, notamment l'apprentissage automatique, la vision par ordinateur, le traitement du langage naturel, la robotique et les considérations éthiques sur les technologies de l'IA.

Cette année, les chercheurs d'Amii et leurs étudiants présentent des articles, des ateliers et des tutoriels qui font progresser la science de l'intelligence artificielle. Pour en savoir plus sur les communications présentées, lisez leurs résumés ci-dessous. 

Révision de l'activation interne : Sauvegarde des modèles de langage de vision sans mise à jour des paramètres

Qing Li, Jiahui Geng, Zongxiong Chen, Kun Song, Lei Ma, Fakhri Karray

Avertissement : Ce document contient un contenu offensant qui peut déranger certains lecteurs.. Les modèles vision-langage (VLM) démontrent de fortes capacités multimodales mais se sont révélés plus susceptibles de générer des contenus nuisibles que les grands modèles de langage (LLM) qui leur servent de base.

Notre étude révèle que l'intégration d'images modifie de manière significative les activations internes du modèle pendant le passage vers l'avant, divergeant de celles déclenchées par l'entrée textuelle. En outre, les alignements de sécurité des LLM intégrés dans les VLM ne sont pas suffisamment robustes pour gérer les divergences d'activations, ce qui rend les modèles vulnérables aux attaques de jailbreaking les plus simples. Pour résoudre ce problème, nous proposons une approche de révision interne des activations qui révise efficacement les activations pendant la génération, en orientant le modèle vers des sorties plus sûres. Notre cadre incorpore des révisions au niveau de la couche et de la tête, offrant un contrôle sur la génération du modèle à différents niveaux de granularité. En outre, nous explorons trois stratégies pour construire des échantillons positifs et négatifs et deux approches pour extraire les vecteurs de révision, ce qui donne lieu à différentes variantes de notre méthode. Des expériences complètes démontrent que la méthode de révision de l'activation interne améliore considérablement la sécurité des VLM largement utilisés, réduisant les taux de réussite des attaques de 48,94 %, 34,34 %, 43,92 % et 52,98 % en moyenne sur SafeBench, SafeUnsafe, Unsafe et MM-SafetyBench, respectivement, tout en ayant un impact minime sur l'utilité du modèle.

Une méthode d'ensemble résistante à l'accumulation d'erreurs pour l'analyse non supervisée des dépendances

Behzad Shayegh, Hobie H.-B. Lee, Xiaodan Zhu, Jackie Chi Kit Cheung, Lili Mou

Nous abordons l'analyse de dépendances non supervisée en construisant un ensemble de divers modèles existants par l'agrégation post hoc de leurs structures d'analyse de dépendances de sortie. Nous observons que ces ensembles souffrent souvent d'une faible robustesse face à des composants d'ensemble faibles en raison de l'accumulation d'erreurs. Pour résoudre ce problème, nous proposons une approche efficace de sélection d'ensemble qui prend en compte la diversité des erreurs et évite l'accumulation d'erreurs. Les résultats démontrent que notre approche est plus performante que chaque modèle individuel et que les techniques d'ensemble précédentes. En outre, nos expériences montrent que la méthode de sélection d'ensemble proposée améliore considérablement les performances et la robustesse de notre ensemble, surpassant les stratégies proposées précédemment, qui n'ont pas pris en compte la diversité des erreurs.


Rétroaction itérative adaptative pour la planification du chemin en fonction des obstacles par le biais de LLMs

Masoud Jafaripour, Shadan Golestan, Shotaro Miwa, Yoshihiro Mitsuka, Osmar R. Zaiane

La planification est essentielle pour les agents effectuant des tâches décisionnelles complexes, en particulier dans les scénarios d'interaction homme-robot (HRI), qui nécessitent souvent une capacité d'adaptation et de navigation dans des environnements dynamiques. Les grands modèles de langage (LLM), connus pour leurs capacités exceptionnelles de compréhension du langage naturel, sont prometteurs pour améliorer la planification dans les HRI en traitant les indices contextuels et linguistiques. Toutefois, leur efficacité est limitée par des lacunes inhérentes au raisonnement spatial. Les cadres de planification existants basés sur le LLM dépendent souvent de la combinaison avec des méthodes de planification classiques ou peinent à s'adapter à des environnements dynamiques, ce qui limite leur applicabilité pratique. Cet article examine si l'incorporation d'un mécanisme de rétroaction environnementale et d'une planification itérative peut améliorer les capacités de planification des LLM. Plus précisément, nous proposons le cadre "AdaptiveIterative Feedback Prompting" (AIFP) pour la planification des chemins. Dans le cadre de l'AIFP, un LLM génère des trajectoires partielles de manière itérative, qui sont évaluées pour les collisions potentielles à l'aide du retour d'information environnemental. En fonction de l'évaluation, l'AIFP exécute la trajectoire ou la replanifie. Nos résultats préliminaires montrent que l'AIFP augmente le taux de réussite de la base de 33,3 % et génère des trajectoires efficaces et complexes, ce qui en fait une approche prometteuse pour les scénarios dynamiques de l'IHM.

Modélisation générative sous contrainte avec des modèles de diffusion à pont manuel

Saeid Naderiparizi,Xiaoxuan Liang,Berend Zwartsenberg,Frank Wood

[Le résumé de cet article n'est pas encore disponible].

Tutoriel : Faire progresser l'apprentissage par renforcement hors ligne : Théories et techniques essentielles pour les développeurs d'algorithmes

Fengdi Che, Ming Yin

Ce tutoriel permettra aux chercheurs empiriques en apprentissage par renforcement (RL), y compris les étudiants diplômés, les chercheurs en début de carrière et les praticiens de l'industrie, d'acquérir une compréhension théorique approfondie de l'apprentissage par renforcement hors ligne. En expliquant les conditions nécessaires et suffisantes pour les garanties théoriques, les participants auront un aperçu des défis de l'apprentissage par renforcement hors ligne par rapport à l'apprentissage supervisé et à l'apprentissage par renforcement en ligne, y compris la dépendance à l'égard des cibles d'amorçage, la couverture partielle de l'espace état-action et les données parasites.

Les participants exploreront d'abord les conditions essentielles pour les garanties théoriques dans le cadre de ces défis et leur lien avec les limitations empiriques, telles que la qualité des ensembles de données et l'expressivité des réseaux neuronaux. La session couvrira également des techniques avancées pour surmonter les difficultés de l'apprentissage par renforcement hors ligne dans le cadre d'hypothèses théoriques plus réalistes et plus faibles, y compris le pessimisme et l'estimation du rapport de densité. En outre, des approches d'apprentissage par renforcement hybride (RL hybride) qui intègrent des données hors ligne avec des interactions en ligne seront introduites pour améliorer l'exploration et l'efficacité des données. Ce tutoriel fournit aux développeurs d'algorithmes et aux chercheurs en début de carrière les outils nécessaires pour améliorer les applications d'apprentissage par renforcement hors ligne en combinant des connaissances théoriques avec des stratégies algorithmiques pratiques.

Les participants à ce cours doivent connaître les principes de base de l'apprentissage par renforcement, tels que les processus de décision de Markov, les fonctions de valeur et l'opérateur optimal de Bellman. Peu de connaissances mathématiques sont nécessaires puisque le cours ne couvre pas les preuves mathématiques détaillées. Une connaissance préalable des algorithmes d'apprentissage par renforcement hors ligne sera bénéfique mais facultative.

Recherche sous-optimale avec distribution dynamique de la sous-optimalité

Mohammadreza Hami, Nathan R. Sturtevant

[Le résumé de cet article n'est pas encore disponible].

Sepehr Lavasani, Lior Siag, Shahaf S. Shperberg, Ariel Felner, Nathan R. Sturtevant

[Le résumé de cet article n'est pas encore disponible].

Partager