Dans le monde de la recherche, le fait de pouvoir travailler sur des données réelles est très important. Pourtant, les jeux de données de ce genre sont très rares, car des informations confidentielles peuvent être extraites. Dans cet article, on se penchera sur le cas des jeux de données de trafic réseau, utilisés notamment pour évaluer des systèmes de détection d’anomalies et autres systèmes de détection d’intrusion. Les adresses IP des paquets sont anonymisées pour préserver l’identité et la vie privée des utilisateurs. Nous avons découvert une technique pour retrouver les sous-réseaux originaux d’un jeu de données de ce type, à partir de l’attaque Mirai survenue début août 2016. Nous avons appliqué cette méthode sur MAWI, l’un des jeux de données les plus utilisés dans ce domaine.
1. Les jeux de données
La conception d’un bon système de détection d’intrusion (aussi connu sous le nom de NIDS pour Network Intrusion Detection System en anglais) repose sur sa capacité à détecter le plus d’attaques possible tout en maintenant un faible taux de fausses alertes. Une fausse alerte correspond à du trafic identifié comme anormal par le détecteur alors qu’il est normal. Pour mettre au point et évaluer un tel système, plusieurs jeux de données sont mis à disposition sur Internet.
À partir d’un jeu de données contenant des attaques et du trafic normal, le but du détecteur est de détecter les attaques et d’identifier le trafic dénué d’attaques. Pour cela, une matrice de confusion contient ce qui a été classifié comme trafic normal ou anormal par rapport à la vraie nature du trafic. Un exemple d’une telle matrice est proposé dans le tableau ci-dessous.
|
Classifié : trafic... |
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première