Poste de recherche

Quantification des médias sociaux déprimés pendant le COVID-19 : Recherche d'information avec ML et NLP

Résumé

La pandémie en cours continue de perturber le fonctionnement normal de la société de nombreuses façons, et les symptômes de dépression sont en augmentation. Dans ce travail, nous avons exploré comment l'analyse des médias sociaux peut révéler des changements dans le nombre d'auteurs présentant des symptômes dépressifs sur les médias sociaux en utilisant Twitter et Reddit.

Nous avons d'abord évalué le niveau des symptômes dépressifs exprimés dans un large ensemble de tweets. Bien que certains efforts aient été déployés pour identifier les symptômes dépressifs dans les tweets, leur portée est limitée et ils ne tiennent généralement pas compte du discours en ligne contemporain sur l'expérience de la dépression. Pour nous assurer que notre évaluation tient compte du discours contemporain, nous avons extrait les messages récents de /r/Depression, où les symptômes et l'expérience sont un sujet de discussion important. Afin de garantir que notre évaluation tienne compte du langage qui exprime les symptômes de la dépression dans une variété de contextes, plutôt que seulement lors d'une discussion explicite sur l'expérience de la dépression, nous avons également extrait tous les autres messages Reddit des utilisateurs qui ont posté dans /r/Depression. Ces posts d'utilisateurs ont été extraits de tous les posts effectués par tous les auteurs dans /r/Depression sur l'ensemble de Reddit pour les mois de novembre et décembre 2019 (les deux mois les plus récents disponibles dans leur intégralité sur Pushshift).

Nous avons ensuite entraîné une intégration de mots GloVe sur les messages des utilisateurs de Reddit qui publient dans /r/Depression. En utilisant les vecteurs de mots résultants, nous avons ensuite entraîné une représentation d'auteur en utilisant la méthode usr2vec à la fois pour nos auteurs de /r/Depression et pour un ensemble d'utilisateurs échantillonnés pour servir de contraste avec notre exemple archétypal. Cela produit une représentation à haute dimension d'un utilisateur, basée sur un composite des représentations de mots que nous avons entraînées précédemment. Ensuite, nous avons utilisé une machine à vecteurs de support (SVM) à noyau linéaire pour trouver un hyperplan de séparation entre ces représentations à haute dimension des utilisateurs qui postent dans /r/Depression et l'ensemble de contrôle non actif dans /r/Depression. À partir de là, nous pourrions utiliser le SVM pour classer directement les représentations d'utilisateurs inconnus ; cependant, cette méthode est sujette à des biais, les classifications sont difficiles à expliquer, et l'entraînement d'une représentation pour chaque nouvel utilisateur est coûteux en termes de calcul. Au lieu de cela, nous avons extrait le vocabulaire fortement associé aux utilisateurs qui publient dans /r/Depression en prenant le cosinus de chaque représentation de mot dans le vocabulaire de notre incorporation de mot avec la direction de décision que le SVM produit. Nous avons pris les mots les plus alignés et les avons utilisés pour former une requête permettant de récupérer le contenu écrit par les utilisateurs déprimés. Ces mots peuvent être visualisés et révisés, ce qui atténue les préjugés et améliore l'explicabilité. Nous appelons cette méthode "Recherche d'information basée sur l'archétype" (AIR) ; notre travail est un exemple d'utilisation de l'AIR pour trouver du contenu associé à la dépression, basé sur une approche similaire pour trouver des messages sur la toxicomanie. %(aligné)

Nous avons créé une requête à partir des 200 mots les plus étroitement alignés et utilisé BM25 pour attribuer un score aux tweets provenant des ensembles de données Mega-COV et Twitter officiel COVID-19. Nous avons considéré que le quartile de tweets ayant obtenu le meilleur score dans notre recherche correspondait à des messages indiquant des symptômes dépressifs. Nous avons trié les tweets en fonction de l'heure à laquelle ils ont été postés et nous avons recherché les changements dans la fréquence des correspondances avec notre requête au fil du temps. Nous avons ensuite exécuté des modèles thématiques (Latent Dirichlet Allocation, Contextual) sur des tweets regroupés selon le mois au cours duquel ils ont été postés et nous avons recherché des cohérences et des changements dans le temps dans les thèmes découverts par ces approches automatisées.

Les travaux futurs permettront d'explorer les liens entre les mesures des médias sociaux et les mesures traditionnelles, hors ligne. Nous avons l'intention de regrouper les tweets par géotags et de rechercher les tendances correspondantes ; la question de savoir si la situation locale, municipale, provinciale, fédérale ou internationale concernant le COVID-19 constitue le principal facteur de stress des individus reste ouverte. Cette étude jette les bases de la DA comme outil d'investigation des impacts du COVID-19 sur la santé mentale.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !