Prévoir les pannes des camions Scania || Projet de stage chez iNeuron || Modélisation de Machine Learning de bout en bout
Table of Contents:
- Introduction
- Project Name: Scania Drug Failure (Sensor Fault Detection)
- Domain: Transportation
- Project Difficulty Level: Intermediate
- Problem Statement: Air Pressure System (APS) Failure in Heavy Duty Vehicles
- Approach: Classification Project (Logistic Regression)
- Data Exploration and Cleaning
- Feature Engineering
- Model Building
- Model Testing and Deployment
- Data Streaming and MongoDB
- Data Validation
- Data Transformation
- Model Training and Evaluation
- Model Deployment with FastAPI
- Project Architecture and Documentation
Introduction
Bonjour à tous ! Je suis Abdul Javed, stagiaire en sciences des données au laboratoire de recherche informatique, et stagiaire en projet d'apprentissage automatique chez Aniron. Aujourd'hui, nous allons discuter du projet d'apprentissage automatique intitulé "Scania Drug Failure" ou "Détection de défaillance des capteurs". Ce projet se situe dans le domaine du transport et présente un niveau de difficulté intermédiaire.
Project Name: Scania Drug Failure (Sensor Fault Detection)
Dans ce projet, nous nous intéressons à l'Air Pressure System (APS), qui est un composant critique des véhicules lourds tels que les camions. Le système APS utilise de l'air pour actionner un piston qui fournit une pression aux plaquettes de frein, ce qui ralentit le véhicule. L'objectif de ce projet est de développer une solution capable de prédire si une défaillance d'un composant lié au système APS est due à ce dernier ou à autre chose.
Domain: Transportation
Ce projet s'inscrit dans le domaine du transport, plus spécifiquement dans le secteur des véhicules lourds. En comprenant les causes des défaillances des capteurs liés au système APS, nous pourrons améliorer la durabilité et la disponibilité de ce système, ce qui aura un impact positif sur la sécurité et l'efficacité des véhicules lourds.
Project Difficulty Level: Intermediate
Le niveau de difficulté de ce projet est intermédiaire. Il nécessite une compréhension des concepts de l'apprentissage automatique, ainsi que des compétences en programmation et en manipulation de données.
Problem Statement: Air Pressure System (APS) Failure in Heavy Duty Vehicles
Le problème que nous cherchons à résoudre est la défaillance du système APS dans les véhicules lourds. Le système APS est essentiel au bon fonctionnement des camions, et une défaillance de ce système peut avoir des conséquences graves en termes de sécurité. Notre objectif est de développer un modèle d'apprentissage automatique qui peut prédire si la défaillance d'un composant du système APS est due à ce dernier ou à autre chose.
Approach: Classification Project (Logistic Regression)
Nous abordons ce problème comme un projet de classification, plus précisément un projet de régression logistique. Nous utiliserons des algorithmes d'apprentissage automatique pour classer les défaillances des capteurs en deux catégories : celles causées par un composant du système APS et celles causées par d'autres facteurs. Cette approche nous permettra de résoudre le problème de manière efficace et précise.
Data Exploration and Cleaning
Avant de construire notre modèle, nous procéderons à l'exploration et au nettoyage des données. Cela implique de comprendre la structure des données, d'identifier les valeurs manquantes ou aberrantes, ainsi que de les traiter. Nous utiliserons des techniques de nettoyage des données et d'ingénierie des caractéristiques pour préparer nos données.
Feature Engineering
Une fois les données nettoyées, nous passerons à l'ingénierie des caractéristiques. Cette étape consiste à créer de nouvelles variables ou à transformer les variables existantes afin d'améliorer les performances de notre modèle. Nous utiliserons des techniques telles que l'encodage des variables catégorielles et le traitement des valeurs manquantes.
Model Building
La construction du modèle est l'une des étapes clés de notre projet. Nous utiliserons des modèles de régression logistique pour classer les défaillances des capteurs. Nous évaluerons plusieurs modèles et choisirons celui qui offre les meilleures performances en termes d'exactitude.
Model Testing and Deployment
Une fois notre modèle construit, nous procéderons à des tests pour évaluer ses performances sur des données non vues auparavant. Nous utiliserons des métriques telles que la précision, le rappel et le score F1 pour évaluer la performance de notre modèle. Une fois satisfait des performances, nous déploierons notre modèle en utilisant l'outil de développement FastAPI.
Data Streaming and MongoDB
Nous utiliserons Apache Kafka pour collecter les données en streaming. Les données seront stockées dans MongoDB, une base de données NoSQL. Cela nous permettra de traiter les données en temps réel et d'effectuer des analyses continues.
Data Validation
La validation des données est une étape cruciale pour garantir la qualité de nos données. Nous vérifierons les types de données, identifierons les données indésirables et remplacerons les valeurs manquantes par des valeurs appropriées. Nous effectuerons également un nettoyage des données pour supprimer les valeurs aberrantes et les valeurs non valides.
Data Transformation
La transformation des données est une étape importante pour préparer nos données avant de les utiliser dans notre modèle. Nous remplirons les valeurs manquantes en utilisant la valeur moyenne, gérerons les valeurs aberrantes en les capant ou en les recadrant, et convertirons les variables catégorielles en variables numériques. Ces transformations permettront à notre modèle de traiter les données de manière efficace.
Model Training and Evaluation
Nous procéderons à l'apprentissage de notre modèle en utilisant des données d'entraînement. Nous évaluerons ensuite les performances de notre modèle à l'aide de métriques telles que la précision, le rappel et le score F1. Ces métriques nous aideront à mesurer l'efficacité de notre modèle dans la prédiction des défaillances des capteurs.
Model Deployment with FastAPI
Une fois notre modèle entraîné et évalué, nous le déployerons à l'aide de FastAPI, un framework de développement Web en Python. Cela nous permettra de mettre notre modèle en production et d'interagir avec lui via une interface conviviale.
Project Architecture and Documentation
Nous documenterons toute l'architecture du projet, y compris les étapes de prétraitement des données, de construction du modèle, d'évaluation et de déploiement. Nous créerons également une documentation détaillée du projet, comprenant des diagrammes de flux, des wireframes et des explications détaillées de chaque étape.
Voilà ! Maintenant que nous avons une vue d'ensemble de notre projet, nous pouvons commencer à travailler sur les différentes étapes. À bientôt pour la suite de notre aventure dans le domaine de l'apprentissage automatique appliqué aux véhicules lourds !