Nouvelles

Cycle de vie des processus de ML - Partie 2 : un regard approfondi

Il s'agit de la première partie d'une série de trois articles sur le cycle de vie des processus de ML. Lire Partie 1 et partie 3.

Maintenant que nous savons ce qu'est le ML Process Lifecycle (MLPL) et pourquoi il est important, nous allons examiner le cadre lui-même et passer en revue les aspects clés de chaque étape.

Les étapes de la MLPL

Un regard de haut niveau sur les quatre étapes de la MLPL

Il y a quatre étapes dans la MLPL :

  1. Compréhension de l'activité et découverte du problème: Cette étape identifie un problème commercial et un problème de ML correspondant. Par exemple, si le problème de l'entreprise est d'inciter les clients existants à consommer davantage de contenu en continu, la solution ML correspondante pourrait être de mettre en œuvre un algorithme qui recommande le contenu qu'ils devraient consommer en fonction de leur historique de visionnage.
  2. Acquisition et compréhension des données: Cette étape consiste à explorer les données disponibles et à identifier les possibilités et les restrictions de leur utilisation en ML. Cela implique une analyse approfondie des données et de leur potentiel.
  3. Modélisation et évaluation du ML: Cette étape est celle où les algorithmes de ML entrent en jeu. De nombreuses organisations commencent par cette étape, en supposant que c'est la seule partie du processus qui doit être réalisée pour parvenir à une solution. Cependant, les deux premières étapes sont essentielles pour déterminer le ou les algorithmes de ML et les configurations à utiliser.
  4. Livraison et acceptation: Cette étape est celle où nous validons si le problème de la ML répond au problème commercial initial. Un projet idéal ne devrait arriver à cette étape qu'une seule fois, mais étant donné la rapidité avec laquelle un projet évolue pour diverses raisons, il est possible que cette étape doive être revisitée. Une bonne communication entre toutes les parties prenantes et la clarté de la définition du problème minimiseront le nombre de fois où cette étape devra être visitée.

Il existe plusieurs modules qui relèvent de chacune des quatre étapes du cadre.

Compréhension de l'activité et découverte des problèmes

Étape de compréhension de l'activité et de découverte du problème

Les principaux aspects à prendre en compte lors de cette étape sont les suivants :

  • Objectifs: Identifier les objectifs commerciaux auxquels les techniques de ML peuvent répondre.
  • Définition du problème : Découvrez le problème de ML qui permettrait de résoudre le problème de l'entreprise. Parfois, un seul problème précis permet de résoudre un problème de ML, et parfois plusieurs problèmes de ML permettent de résoudre le problème de l'entreprise.
  • Sources de données : Identifiez les sources de données existantes. Dans le monde réel, les données proviennent généralement de différentes sources et ont été combinées à partir de ces sources. Identifier les sources de données aidera à réduire les données qui peuvent être utiles. Les sources de données peuvent être des données propriétaires internes, des données accessibles au public ou des données qui peuvent être achetées à des tiers.
  • Pratiques actuelles : Identifiez les processus ou pratiques d'entreprise en place qui répondent au problème de l'entreprise dans le contexte actuel, le cas échéant. Le problème d'entreprise peut être complètement nouveau ou existant.
  • Environnement de développement : Définir l'environnement de développement et de collaboration (dépôts de code/données, langages de programmation, etc.).
  • Communication: Convenez des méthodes de communication et de la fréquence des communications.
  • Jalons: Définissez les jalons, les échéances et les produits à livrer. Parfois, il n'est pas possible d'arriver à des jalons définis, étant donné qu'il s'agit d'une tâche d'exploration. Mais le fait de penser dans cette direction aidera à ajouter de la structure.
  • Ressources : Identifiez les ressources qui seront nécessaires. Les ressources peuvent être du temps, de l'argent, des employés (par exemple, des ingénieurs de données, des analystes, des scientifiques) ou des ressources informatiques. 
  • Parties prenantes: Identifiez les parties prenantes internes/externes et leurs rôles. Il y a généralement plusieurs parties prenantes qui devraient faire partie de ce processus en permanence. Par exemple, l'équipe de direction qui a décidé qu'une approche ML devait être essayée, une équipe technique qui explore activement la solution, les équipes qui s'occuperaient des différentes étapes d'exploration, et les tiers associés au développement et au déploiement de la solution finale. Toutes les équipes impliquées dans chacune des étapes de la MLPL doivent être sur la même longueur d'onde.
  • Contraintes: Identifier les contraintes qui sont acceptables pour le problème. Avons-nous besoin de solutions ML qui soient interprétables ? Y a-t-il une partie des données qui doit être supprimée pour des raisons de confidentialité ?

À la fin de cette étape, nous aurons identifié et défini nos objectifs pour nous aider à mieux comprendre le problème et à plonger plus profondément dans les étapes suivantes de la MLPL. Les feuilles de travail et autres outils peuvent être utiles à ce stade.

Acquisition et compréhension des données

Étape d'acquisition et de compréhension des données

  • Acquisition: L'acquisition des données est une tâche importante. Après avoir identifié les sources de données (lors de l'étape de compréhension de l'activité et de découverte des problèmes), il faut les combiner en une seule source de données. Dans certains cas, l'alignement et la combinaison des sources de données peuvent nécessiter une connaissance approfondie du domaine et une expertise.
  • Prétraitement: Les données acquises peuvent ne pas être sous une forme lisible par les outils et les bibliothèques utilisés pour créer des modèles d'apprentissage automatique. Le traitement se fait généralement en deux étapes. La première consiste à traduire les données sous une forme liée au domaine problématique de l'apprentissage automatique. Par exemple, pour le traitement de texte, si vos données d'origine sont sous forme d'images numérisées, la première étape consistera à convertir ces images de documents textuels en texte utilisable par les algorithmes textuels. La deuxième étape consistera à convertir les données afin de prendre en charge les algorithmes spécifiques (par exemple : changer les variables catégorielles en variables numériques) ou d'autres techniques de transformation (par exemple : normalisation, mise à l'échelle) qui permettront d'améliorer les résultats. 
  • Nettoyage: Dans le monde réel, les données sont généralement corrompues pour diverses raisons. Les relevés inexacts des capteurs, les incohérences entre les relevés et les données invalides sont quelques-uns des problèmes de données que l'on peut rencontrer. Il convient de procéder à une analyse approfondie de la manière de corriger ces valeurs avec l'aide d'un expert du domaine et des données.
  • Pipeline: Un pipeline est une séquence de tâches qui peut être utilisée pour automatiser des tâches répétées. Les tâches impliquées peuvent consister à extraire des données de différentes sources vers un seul endroit, à prétraiter les données sous une forme qui peut être stockée et récupérée efficacement et à charger les données dans un format nécessaire qui peut être utilisé par les algorithmes d'apprentissage automatique.
  • Analyse exploratoire des données : Effectuer une analyse exploratoire des données pour mieux comprendre les données. La compréhension des données est très importante et peut conduire à une meilleure conception et sélection du processus de ML. En outre, elle permet de comprendre en profondeur ce qui pourrait être une information utile pour les étapes suivantes.
  • Ingénierie des caractéristiques : L'ingénierie des caractéristiques est un processus continu qui peut intervenir à différentes étapes d'un processus de ML. Dans la phase d'acquisition et de compréhension des données, l'ingénierie des caractéristiques peut consister à identifier les caractéristiques qui ne sont pas pertinentes et qui n'apportent aucune information. Par exemple, dans les données à haute dimension, l'ingénierie des caractéristiques peut chercher à éliminer les caractéristiques dont la variance est proche de 0.
  • Fractionnement des données : Les données doivent être divisées de manière à ce qu'il y ait une partie des données appelée "données de formation". Les données d'entraînement sont utilisées pour former QuAM et une autre partie des données, appelée "données de test", sert à évaluer la qualité de QuAM.

Modélisation et évaluation des ML

Étape de modélisation et d'évaluation du ML
  • Sélection d'algorithmes : La sélection d'algorithmes est un processus qui consiste à réduire une série d'algorithmes qui conviennent au problème et aux données. Avec de nombreux algorithmes dans divers domaines du ML, la sélection nous aide à nous concentrer sur certains algorithmes sélectionnés et à travailler avec eux pour arriver à une solution.
  • Ingénierie des caractéristiques : Cette partie de l'ingénierie des caractéristiques se concentre sur la préparation de l'ensemble de données pour qu'il soit compatible avec l'algorithme ML. La transformation des données, la réduction de la dimensionnalité, le traitement des valeurs aberrantes, le traitement des variables catégorielles sont quelques exemples de techniques d'ingénierie des caractéristiques.
  • Formation QuAM/Modèle : Une fois qu'un algorithme a été sélectionné et que les données sont préparées pour l'algorithme, nous devons construire la machine à questions et réponses (QuAM) - une combinaison d'un algorithme et de données. Dans le monde du ML, un QuAM est également appelé modèle. L'entraînement du QuAM comprend l'utilisation des données d'entraînement pour apprendre un QuAM qui peut bien se généraliser. 
  • L'évaluation: L'identification des critères d'évaluation est une tâche importante. Si votre tâche est la classification et que le succès d'un modèle est défini par le nombre d'instances actuellement identifiées, vous pouvez utiliser la précision comme mesure d'évaluation. S'il y a un coût associé à l'identification des faux positifs ou des faux négatifs, alors d'autres mesures telles que la précision et le rappel peuvent être utilisées.
  • Raffinement: Affinez le modèle en identifiant les meilleurs paramètres pour chacun des algorithmes sur lesquels vous avez entraîné le QuAM. Cette étape, appelée réglage des hyperparamètres, est utilisée pour trouver les paramètres optimaux d'un modèle.

Livraison et acceptation

Phase de livraison et d'acceptation

C'est l'étape où nous confirmons que le problème de la LM répond au problème de l'entreprise. Il est essentiel d'avoir une conversation avec l'employeur ou le client pour comprendre si le problème de l'entreprise est résolu. 

  • Solution ML : Du point de vue de la livraison, une solution ML doit être livrée au client. Cette solution peut prendre l'une ou les trois formes suivantes :
  • Prototype : Le code source du prototype est fourni avec des fichiers readme et de dépendance sur la façon d'utiliser le prototype. Le prototype ne doit pas nécessairement être un code de niveau production, mais il doit être suffisamment propre avec des commentaires, et relativement stable pour que les équipes d'ingénieurs puissent l'utiliser pour construire un produit.
  • Documentation : Une bonne documentation accompagne toujours un prototype. Certains détails techniques doivent être énumérés et expliqués. 
  • Rapport de projet : Il s'agit d'une liste complète des méthodologies utilisées et des décisions prises tout au long du projet, ainsi que des raisons de ces décisions. Cela donne une idée de haut niveau de ce qui a été réalisé dans le projet.
  • Transfert de connaissances : Identifiez la formation interne nécessaire à la compréhension de la solution ML et présentez-la au client. C'est le moment approprié pour clarifier les questions concernant la solution de ML, et agit comme un point de contrôle du retour d'information avant d'incorporer la solution de ML dans le fonctionnement complet.
  • Remise : Remettre tout le matériel au client pour qu'il puisse l'exécuter.

Cadre total MLPL

Vu dans son ensemble, le cadre entier ressemble à ceci :

Cycle de vie détaillé du processus ML avec toutes les étapes et tous les modules

Dans la troisième et dernière partie de la série MLPLnous examinons les commutateurs de cycle de vie et ce à quoi vous pouvez vous attendre de manière réaliste dans votre parcours vers une solution ML.


Le cadre MLPL d'Amii s'appuie sur les connaissances déjà acquises par les équipes d'organisations telles que Microsoft, Uber, Google, Databricks et Facebook. Le MLPL a été adapté par les équipes d'Amii pour être un cadre indépendant de la technologie, suffisamment abstrait pour être flexible à travers les types de problèmes et suffisamment concret pour être mis en œuvre. Pour répondre aux besoins de nos clients, nous avons également découplé les phases de déploiement et d'exploration, fourni des modules de processus au sein de chaque étape et défini les artefacts clés qui résultent de chaque étape. La MLPL garantit également que nous sommes en mesure de capturer tous les apprentissages qui surviennent tout au long du processus global mais qui ne sont pas utilisés dans le modèle final.

Si vous souhaitez en savoir plus sur ce sujet et sur d'autres sujets intéressants liés à l'apprentissage automatique, nous vous recommandons vivement le cours en ligne d'apprentissage automatique récemment lancé par Amii : Algorithmes dans la spécialisation du monde réel, enseigné par notre directrice générale des sciences appliquées, Anna Koop. Visitez la page Formation pour en savoir plus sur toutes nos offres de formation.

Derniers articles d'actualité

Connectez-vous avec la communauté

Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.

Explorer la formation et l'enseignement supérieur

Vous êtes curieux de connaître les possibilités d'études auprès de l'un de nos chercheurs ? Vous voulez plus d'informations sur les possibilités de formation ?

Exploiter le potentiel de l'intelligence artificielle

Faites-nous part de vos objectifs et de vos défis concernant l'adoption de l'IA dans votre entreprise. Notre équipe Investissements & Partenariats vous contactera sous peu !