Ingénieur IA chez Nuiva
En tant que Data Scientist passionné, je combine des compétences analytiques avancées avec une expertise en programmation et en modélisation pour résoudre des problèmes complexes et transformer les données en décisions éclairées.
Je travaille actuellement comme Ingénieur IA chez Nuiva, où je suis responsable du développement et du déploiement de modèles d'apprentissage automatique pour améliorer la performance des produits de l'entreprise.
Ce projet d’apprentissage automatique vise à développer un classificateur capable de différencier précisément le trafic réseau intrusif (malveillant) du trafic non intrusif (bénin).
L’objectif de ce projet est d’analyser et d’évaluer différentes méthodes de détection d’intrusions. À l’aide d’un ensemble de données complet, un modèle prédictif a été développé pour classer les connexions réseau comme étant soit normales, soit des attaques spécifiques appartenant à différentes catégories.
L’ensemble de données utilisé dans ce projet provient d’un environnement réseau simulant un réseau local standard de l’US Air Force, dans lequel divers types d’attaques ont été injectés. Les données, fournies par Lincoln Labs, couvrent neuf semaines de captures brutes de paquets TCP converties en enregistrements de connexions réseau soigneusement étiquetés.
L’ensemble de données est accessible ici.
Chaque connexion est définie par une série de paquets TCP, se produisant à des moments précis et transférant des données entre adresses IP source et destination sous des protocoles spécifiques. Ces connexions sont étiquetées comme normales ou classées dans l’une des catégories suivantes d’attaques :
Pour comprendre la répartition et les regroupements des connexions réseau, nous avons utilisé t-SNE pour réduire la dimensionnalité et visualiser les données en 2D.
Les graphiques t-SNE permettent d’observer :
Voici les métriques de classification du modèle de base (Random Forest) :
Classe | Précision | Rappel | Score F1 | Support |
---|---|---|---|---|
dos | 1.00 | 1.00 | 1.00 | 78292 |
normal | 1.00 | 1.00 | 1.00 | 19456 |
probe | 1.00 | 1.00 | 1.00 | 822 |
r2l | 1.00 | 0.96 | 0.98 | 225 |
u2r | 0.75 | 0.60 | 0.67 | 10 |
Exactitude | 1.00 | 98805 | ||
Moyenne Macro | 0.95 | 0.91 | 0.93 | 98805 |
Moyenne Pondérée | 1.00 | 1.00 | 1.00 | 98805 |
Score F1 moyen pondéré : 99.9752%
Après l’application de SMOTE pour rééquilibrer les classes, les nouvelles métriques sont :
Classe | Précision | Rappel | Score F1 | Support |
---|---|---|---|---|
dos | 1.00 | 1.00 | 1.00 | 78292 |
normal | 1.00 | 1.00 | 1.00 | 19456 |
probe | 1.00 | 0.99 | 1.00 | 821 |
r2l | 1.00 | 0.98 | 0.99 | 225 |
u2r | 0.99 | 1.00 | 1.00 | 200 |
Exactitude | 1.00 | 98994 | ||
Moyenne Macro | 1.00 | 0.99 | 1.00 | 98994 |
Moyenne Pondérée | 1.00 | 1.00 | 1.00 | 98994 |
Score F1 moyen pondéré : 99.9827%