Une approche d'apprentissage automatique pour prédire l'ethnicité à partir du nom personnel et de l'emplacement du recensement au Canada

Résumé

Contexte

Le Canada est un pays diversifié sur le plan ethnique, mais le manque d'informations sur l'ethnicité dans de nombreuses grandes bases de données entrave l'efficacité de la recherche et des interventions sur la population. La classification automatisée de l'ethnicité à l'aide de l'apprentissage automatique a montré qu'elle pouvait combler ce manque de données, mais son rendement au Canada est largement inconnu. Cette étude a utilisé un cadre d'apprentissage automatique à grande échelle pour prédire l'ethnicité à l'aide d'un nouvel ensemble de caractéristiques de noms et de lieux de recensement.

Méthodes

À l'aide du recensement de 1901, les pipelines d'apprentissage machine de classification multiclasse et de classe binaire ont été développés. Les 13 catégories ethniques examinées étaient les suivantes : autochtones (Premières nations, Métis, Inuits et toutes catégories confondues), chinois, anglais, français, irlandais, italien, japonais, russe, écossais et autres. Les algorithmes d'apprentissage automatique comprenaient la régression logistique régularisée, le vecteur C-support et les classificateurs de Bayes naïfs. Les caractéristiques du nom comprenaient la chaîne entière du nom, les sous-chaînes, les doubles-métaphones et divers modèles de nom-entité, tandis que les caractéristiques du lieu comprenaient la chaîne entière du lieu et les sous-chaînes de la province, du district et du sous-district. Les paramètres de performance prédictive comprenaient la sensibilité, la spécificité, la valeur prédictive positive, la valeur prédictive négative, le F1, l'aire sous la courbe de la courbe caractéristique d'exploitation du récepteur et la précision.

Résultats

Le recensement comptait 4 812 958 individus uniques. Pour la classification multiclasse, la performance la plus élevée obtenue était de 76% F1 et 91% de précision. Pour les classifications binaires pour les Chinois, les Français, les Italiens, les Japonais, les Russes et les autres, la valeur F1 était comprise entre 68 et 95 % (médiane 87 %). Les performances plus faibles pour les Anglais, les Irlandais et les Écossais (F1 compris entre 63 et 67 %) sont probablement dues à leur héritage culturel et linguistique commun. L'ajout des caractéristiques de localisation du recensement aux modèles basés sur le nom a fortement amélioré la prédiction dans la classification des Autochtones (le F1 est passé de 50 % à 84 %).

Conclusions

L'approche d'apprentissage automatique utilisant uniquement les caractéristiques du nom et du lieu de recensement peut prédire l'ethnicité des Canadiens avec des performances variables selon les catégories ethniques spécifiques.

Une approche d'apprentissage automatique pour prédire l'ethnicité à partir du nom personnel et de l'emplacement du recensement au Canada

Résumé

Derniers documents de recherche

Identification des émotions de base et des émotions spécifiques à la dépression dans les tweets : Expériences de classification multi-label

Questions faiblement supervisées pour l'extraction de relations de type "zéro".

Mise à jour des visualisations de données affichées en fonction des centres de conversation identifiés dans les commandes en langage naturel.

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle