Découvrez comment expliquer les modèles d'apprentissage automatique avec explainX.ai : CatBoost Classifier

No difficulty

No complicated process

Find ai tools

Home AI NEW FR Découvrez comment expliquer les modèles d'apprentissage automatique avec explainX.ai : CatBoost Classifier

Découvrez comment expliquer les modèles d'apprentissage automatique avec explainX.ai : CatBoost Classifier

Table of Contents

Introduction
Installation of the Explaner's Package
Model Development Phase
Explaining the Predictions of the Model
1. Overview of the Explainer's Dashboard
2. Global Explanation Level
  - Features Impacting the Model's Prediction
  - Aggregate Importance for Different Classes
3. Local Explanation Level
  - Insights for a Specific Individual
  - What-If Analysis
4. Distributions and Feature Influence
5. Cohort Analysis
Conclusion
FAQ

🌟 Introduction

Dans le cadre de la plongée approfondie dans la plateforme Fixed PlaneX, nous allons parcourir le cahier d'exemple et utiliser le package Explainex pour expliquer les prédictions d'un modèle de classification binaire de Boost Boost entraîné sur l'ensemble de données de prêt à la consommation de crédit FICO. Pour commencer, ce cahier sera disponible sur GitHub pour que les téléspectateurs puissent l'essayer sur leurs propres ordinateurs locaux. Alors, commençons d'abord par installer le package Explainex sur mon ordinateur local afin d'y accéder.

💻 Installation du package Explainex

Afin d'accéder à Explainex, j'installerai d'abord le package sur mon ordinateur local. Cependant, je ne lancerai pas cette ligne de commande, car j'ai déjà installé Explainex.

Après l'installation, je passerai à la phase de développement du modèle. J'importerai tous les packages pertinents et obtiendrai l'ensemble de données, qui est directement disponible à partir de mon package Explainex. Comme mentionné précédemment, il s'agit d'un ensemble de données de prêt à la consommation de crédit, publié sous licence par FICO, qui sera utilisé pour la classification binaire des étiquettes : crédit accordé représenté par zéro et crédit non accordé représenté par un. Je chargerai cet ensemble de données et le diviserai en ensembles de données de test et d'entraînement.

Après cela, je vais former un classificateur CatBoost qui prédit si quelqu'un se verra accorder une ligne de crédit ou non. Une fois que j'ai ajusté le modèle, c'est là que la question de l'explicabilité et de l'interprétabilité entre en jeu.

📊 Explication des prédictions du modèle

Jetons un coup d'œil à la fonction Explainex, qui permet d'accéder aux explications des données tabulaires grâce à une seule ligne de code. Vous devez transmettre vos ensembles de données de test, votre modèle et le nom de vos explainer models. Explainex prendra tous ces paramètres, exécutera automatiquement les techniques d'explicabilité et renverra un lien vers le tableau de bord auquel vous pourrez accéder dans votre notebook Jupyter ou dans un nouvel onglet avec les explications.

Cliquons sur ce lien pour ouvrir notre tableau de bord et expliquer le modèle. Le tableau de bord comporte deux onglets importants : "Analyze using SQL" et "View your data". Le premier onglet est utile pour les personnes qui aiment SQL et qui ont une expertise dans ce langage. En utilisant cet onglet, vous pouvez découper et analyser vos données à l'Aide de requêtes SQL, évaluer les performances du modèle en exécutant différentes requêtes, aussi complexes soient-elles. Le deuxième onglet, "View your data", vous permet de visualiser vos données sous forme tabulaire. Il s'agit de fonctionnalités très basiques, mais importantes.

Plongeons directement dans les différents niveaux d'explication. Le premier niveau est l'explication globale. En cliquant dessus, le graphique affichant l'importance des fonctionnalités sera généré. En examinant ce graphique, nous pouvons comprendre comment notre modèle a réellement effectué sa prédiction. Par exemple, nous pouvons voir que les fonctionnalités sont classées par ordre d'importance, calculée en utilisant l'explainer SHAP. En lisant simplement ce graphique, nous pouvons voir que, sur le plan mondial, le modèle tient compte de l'estimation du risque externe, des mois depuis la requête la plus récente et de la part nette des charges tournantes comme les trois variables les plus influentes pour le modèle.

En approfondissant l'analyse, il est clair que regarder l'importance globale ne suffit pas. Nous devons identifie