Poste de recherche

Une approche d'apprentissage automatique pour prédire l'ethnicité à partir du nom personnel et de l'emplacement du recensement au Canada

Résumé


Contexte

Le Canada est un pays diversifié sur le plan ethnique, mais le manque d'informations sur l'ethnicité dans de nombreuses grandes bases de données entrave l'efficacité de la recherche et des interventions sur la population. La classification automatisée de l'ethnicité à l'aide de l'apprentissage automatique a montré qu'elle pouvait combler ce manque de données, mais son rendement au Canada est largement inconnu. Cette étude a utilisé un cadre d'apprentissage automatique à grande échelle pour prédire l'ethnicité à l'aide d'un nouvel ensemble de caractéristiques de noms et de lieux de recensement.


Méthodes

À l'aide du recensement de 1901, les pipelines d'apprentissage machine de classification multiclasse et de classe binaire ont été développés. Les 13 catégories ethniques examinées étaient les suivantes : autochtones (Premières nations, Métis, Inuits et toutes catégories confondues), chinois, anglais, français, irlandais, italien, japonais, russe, écossais et autres. Les algorithmes d'apprentissage automatique comprenaient la régression logistique régularisée, le vecteur C-support et les classificateurs de Bayes naïfs. Les caractéristiques du nom comprenaient la chaîne entière du nom, les sous-chaînes, les doubles-métaphones et divers modèles de nom-entité, tandis que les caractéristiques du lieu comprenaient la chaîne entière du lieu et les sous-chaînes de la province, du district et du sous-district. Les paramètres de performance prédictive comprenaient la sensibilité, la spécificité, la valeur prédictive positive, la valeur prédictive négative, le F1, l'aire sous la courbe de la courbe caractéristique d'exploitation du récepteur et la précision.


Résultats

Le recensement comptait 4 812 958 individus uniques. Pour la classification multiclasse, la performance la plus élevée obtenue était de 76% F1 et 91% de précision. Pour les classifications binaires pour les Chinois, les Français, les Italiens, les Japonais, les Russes et les autres, la valeur F1 était comprise entre 68 et 95 % (médiane 87 %). Les performances plus faibles pour les Anglais, les Irlandais et les Écossais (F1 compris entre 63 et 67 %) sont probablement dues à leur héritage culturel et linguistique commun. L'ajout des caractéristiques de localisation du recensement aux modèles basés sur le nom a fortement amélioré la prédiction dans la classification des Autochtones (le F1 est passé de 50 % à 84 %).


Conclusions

L'approche d'apprentissage automatique utilisant uniquement les caractéristiques du nom et du lieu de recensement peut prédire l'ethnicité des Canadiens avec des performances variables selon les catégories ethniques spécifiques.

Derniers documents de recherche

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !