Poste de recherche
Contexte
Le Canada est un pays diversifié sur le plan ethnique, mais le manque d'informations sur l'ethnicité dans de nombreuses grandes bases de données entrave l'efficacité de la recherche et des interventions sur la population. La classification automatisée de l'ethnicité à l'aide de l'apprentissage automatique a montré qu'elle pouvait combler ce manque de données, mais son rendement au Canada est largement inconnu. Cette étude a utilisé un cadre d'apprentissage automatique à grande échelle pour prédire l'ethnicité à l'aide d'un nouvel ensemble de caractéristiques de noms et de lieux de recensement.
Méthodes
À l'aide du recensement de 1901, les pipelines d'apprentissage machine de classification multiclasse et de classe binaire ont été développés. Les 13 catégories ethniques examinées étaient les suivantes : autochtones (Premières nations, Métis, Inuits et toutes catégories confondues), chinois, anglais, français, irlandais, italien, japonais, russe, écossais et autres. Les algorithmes d'apprentissage automatique comprenaient la régression logistique régularisée, le vecteur C-support et les classificateurs de Bayes naïfs. Les caractéristiques du nom comprenaient la chaîne entière du nom, les sous-chaînes, les doubles-métaphones et divers modèles de nom-entité, tandis que les caractéristiques du lieu comprenaient la chaîne entière du lieu et les sous-chaînes de la province, du district et du sous-district. Les paramètres de performance prédictive comprenaient la sensibilité, la spécificité, la valeur prédictive positive, la valeur prédictive négative, le F1, l'aire sous la courbe de la courbe caractéristique d'exploitation du récepteur et la précision.
Résultats
Le recensement comptait 4 812 958 individus uniques. Pour la classification multiclasse, la performance la plus élevée obtenue était de 76% F1 et 91% de précision. Pour les classifications binaires pour les Chinois, les Français, les Italiens, les Japonais, les Russes et les autres, la valeur F1 était comprise entre 68 et 95 % (médiane 87 %). Les performances plus faibles pour les Anglais, les Irlandais et les Écossais (F1 compris entre 63 et 67 %) sont probablement dues à leur héritage culturel et linguistique commun. L'ajout des caractéristiques de localisation du recensement aux modèles basés sur le nom a fortement amélioré la prédiction dans la classification des Autochtones (le F1 est passé de 50 % à 84 %).
Conclusions
L'approche d'apprentissage automatique utilisant uniquement les caractéristiques du nom et du lieu de recensement peut prédire l'ethnicité des Canadiens avec des performances variables selon les catégories ethniques spécifiques.
26 février 2023
Poste de recherche
23 janvier 2023
Poste de recherche
8 août 2022
Poste de recherche
Lisez ce document de recherche co-rédigé par Angel Chang, titulaire de la chaire d'IA de l'ICAR Canada : Apprentissage des traces emphatiques attendues pour le RL profond
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.