lang — EN

Ahmed OSMAN

Logo


Ingénieur IA chez Nuiva
Basé en France (citoyen de l'UE)

En tant que Data Scientist passionné, je combine des compétences analytiques avancées avec une expertise en programmation et en modélisation pour résoudre des problèmes complexes et transformer les données en décisions éclairées.

Je travaille actuellement comme Ingénieur IA chez Nuiva, où je suis responsable du développement et du déploiement de modèles d'apprentissage automatique pour améliorer la performance des produits de l'entreprise.

Contactez-moi
Logo LinkedIn Logo GitHub Logo Gmail

Système de Détection d’Intrusions Réseau

Ce projet d’apprentissage automatique vise à développer un classificateur capable de différencier précisément le trafic réseau intrusif (malveillant) du trafic non intrusif (bénin).

Vue d’ensemble du projet

L’objectif de ce projet est d’analyser et d’évaluer différentes méthodes de détection d’intrusions. À l’aide d’un ensemble de données complet, un modèle prédictif a été développé pour classer les connexions réseau comme étant soit normales, soit des attaques spécifiques appartenant à différentes catégories.

Voici la présentation animée du projet.


Description des données

L’ensemble de données utilisé dans ce projet provient d’un environnement réseau simulant un réseau local standard de l’US Air Force, dans lequel divers types d’attaques ont été injectés. Les données, fournies par Lincoln Labs, couvrent neuf semaines de captures brutes de paquets TCP converties en enregistrements de connexions réseau soigneusement étiquetés.

L’ensemble de données est accessible ici.

Chaque connexion est définie par une série de paquets TCP, se produisant à des moments précis et transférant des données entre adresses IP source et destination sous des protocoles spécifiques. Ces connexions sont étiquetées comme normales ou classées dans l’une des catégories suivantes d’attaques :


Méthodologie

Gestion et Prétraitement des Données

Développement et Évaluation du Modèle


Visualisation

Pour comprendre la répartition et les regroupements des connexions réseau, nous avons utilisé t-SNE pour réduire la dimensionnalité et visualiser les données en 2D.

t-SNE Plot t-SNE Plot binary

Les graphiques t-SNE permettent d’observer :


Performance du Modèle

Avant SMOTE

Voici les métriques de classification du modèle de base (Random Forest) :

Classe Précision Rappel Score F1 Support
dos 1.00 1.00 1.00 78292
normal 1.00 1.00 1.00 19456
probe 1.00 1.00 1.00 822
r2l 1.00 0.96 0.98 225
u2r 0.75 0.60 0.67 10
         
Exactitude     1.00 98805
Moyenne Macro 0.95 0.91 0.93 98805
Moyenne Pondérée 1.00 1.00 1.00 98805

Score F1 moyen pondéré : 99.9752%


Après SMOTE

Après l’application de SMOTE pour rééquilibrer les classes, les nouvelles métriques sont :

Classe Précision Rappel Score F1 Support
dos 1.00 1.00 1.00 78292
normal 1.00 1.00 1.00 19456
probe 1.00 0.99 1.00 821
r2l 1.00 0.98 0.99 225
u2r 0.99 1.00 1.00 200
         
Exactitude     1.00 98994
Moyenne Macro 1.00 0.99 1.00 98994
Moyenne Pondérée 1.00 1.00 1.00 98994

Score F1 moyen pondéré : 99.9827%


Matrice de Confusion (Modèle Final)

Matrice de Confusion