MISC Hors-série N°
Numéro
18

Machine Learning & sécurité

Temporalité
Novembre/Décembre 2018
Image v3
Machine learning et sécurité
Article mis en avant

Dans ce numéro...


Qu’il s’agisse de lessive lavant plus blanc que blanc ou d’une énième vulnérabilité cataclysmique, la résultante invariable du marketing est de produire, à un moment, du faux.
La littérature regorge de livres traitant le sujet de l’apprentissage automatique, le Machine Learning.
Julien Cornebise est un expert francophone du Machine Learning qui a été l’un des premiers chercheurs de DeepMind, entreprise connue pour avoir notamment développé AlphaGo (une IA qui battra les meilleurs joueurs de Go au monde). Il a accepté de répondre à nos questions afin de nous faire découvrir le parcours d’un chercheur en Machine Learning.
Les voleurs de mots de passe ne sont pas une nouveauté, ni même, pour la plupart quelque chose d’exceptionnel d’un point de vue technique. Mais le nombre fait la force. Découvrons ce petit monde.
Le Machine Learning (ML) qu’on peut traduire par apprentissage automatique ou apprentissage machine (ou encore apprentissage statistique il y a encore quelques années) est catalogué comme une des 10 technologies de rupture par la Technology Review, célèbre revue du MIT. Devenue une expression fétiche il semble qu’aucun domaine ne va y échapper et il était inévitable que la sécurité s’y intéresse, reste à le faire de manière intelligente. Nous nous proposons dans cet article de faire un tour d’horizon des possibilités qu’offre le ML. Cet article devrait vous aider à faire vos premiers pas, à comprendre plus facilement les articles de ce hors-série et enfin, à permettre au lecteur d’évaluer l’intérêt d’une solution de sécurité qui se vante de faire du ML.
Machine Learning, l’ingrédient indispensable à la bonne recette de l’innovation ? Revoyons ensemble quels sont les vrais domaines où ce nouvel outil transformera réellement le paysage de la sécurité.
La détection d’intrusion suppose souvent que l’on connaisse ce qu’est une intrusion (détection par signature) ou ce qui relève d’une activité normale (détection d’anomalie). Cependant, le volume de données à traiter dans un réseau et leur complexité brouillent souvent la frontière entre ces deux principales catégories de flux réseau. Les techniques d’apprentissage profond portent la promesse d’une découverte facilitée des caractéristiques qui permettraient de distinguer flux réseau légitimes et intrusions. Cet article se propose d’aborder de manière pratique des résultats de recherche récents en utilisant des outils libres comme Keras et TensorFlow.
Cet article présente des techniques de clusterisation (classification automatique) de malwares pour se faciliter la vie dans l’écriture de règles Yara. Cela permet de diminuer fortement le taux de faux positifs. On commence par clusteriser notre ensemble de malwares, et, pour chaque cluster nous utilisons un générateur automatique de règles Yara. Nous donnons des exemples avec le jeu de données « theZoo ».
Nous voulons (par exemple) classifier un jeu de données très grand, disons quelques millions de données, voire quelques milliards, mais non labellisées. Face au problème, l’algorithme K-means semblait un bon candidat. Il s'agit d'un des grands classiques des algorithmes du Machine Learning qui comporte cependant un défaut : il est nécessaire de lui donner k, le nombre de clusters (c’est ce qu’on appelle un « hyperparamètre »). Quand cette valeur optimale est inconnue, il est coûteux de trouver une bonne approximation, surtout sur un très grand jeu de données. Pour pallier à ce problème, nous avons développé un nouvel algorithme : Automeans, cet algorithme calcule le nombre « optimal » de clusters.
Les progrès réalisés cette dernière décennie en Deep Learning ont profité à plusieurs domaines, ce qui lui a permis de s’imposer comme une approche incontournable en Machine Learning. La classification automatique des documents textuels est l’une des tâches dans laquelle le Deep Learning s’avère particulièrement utile et performant. Dans cet article, nous allons présenter en détail les aspects théoriques et pratiques liés à l’implémentation d’un système d’analyse des sentiments. Il s’agit de la classification automatique de tweets en trois classes : positive, négative ou neutre.
YaDiff est un outil permettant la propagation d’informations d’une base IDA vers une autre pour assister l’analyse de codes binaires. Il utilise un réseau de neurones entraîné à identifier les routines similaires.
Cet article est le troisième d'une mini-série sur le C++, ou plutôt sur les binaires compilés depuis C++, leurs particularités, comment les concepts du langage se retrouvent parfois dans le binaire final.
L'apprentissage par renforcement est un domaine de l'apprentissage statistique qui cherche à résoudre le problème de la prise de décision séquentielle dans l'incertitude.
Les graphes, composés de sommets et d’arêtes sont des objets communs en mathématiques (et indispensables) en informatique. Lorsqu’on veut manipuler des graphes de plusieurs centaines de millions de sommets, voire de plusieurs milliards de sommets, comme le graphe du web (ou un sous-ensemble) ou le graphe de certains réseaux sociaux, les choses se compliquent singulièrement : la plupart des algorithmes « académiques » se heurtent au « mur » de la complexité en temps (voire en espace), que nous appellerons le mur du « Big Data ». Tout algorithme dont la complexité est de l’ordre de O(n³) ou même de l’ordre de O(n²) est en fait inutilisable en pratique (ou très coûteux) dès lors que n, le nombre de sommets, dépasse (disons) le milliard. Il faut alors suivre d’autres stratégies. Il faut par exemple accepter de ne pouvoir calculer qu’une approximation même si dans certains cas, cette approximation peut en fait être la valeur exacte.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Sécurisez vos applications web : comment Symfony vous protège des menaces courantes

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Les frameworks tels que Symfony ont bouleversé le développement web en apportant une structure solide et des outils performants. Malgré ces qualités, nous pouvons découvrir d’innombrables vulnérabilités. Cet article met le doigt sur les failles de sécurité les plus fréquentes qui affectent même les environnements les plus robustes. De l’injection de requêtes à distance à l’exécution de scripts malveillants, découvrez comment ces failles peuvent mettre en péril vos applications et, surtout, comment vous en prémunir.

Bash des temps modernes

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Les scripts Shell, et Bash spécifiquement, demeurent un standard, de facto, de notre industrie. Ils forment un composant primordial de toute distribution Linux, mais c’est aussi un outil de prédilection pour implémenter de nombreuses tâches d’automatisation, en particulier dans le « Cloud », par eux-mêmes ou conjointement à des solutions telles que Ansible. Pour toutes ces raisons et bien d’autres encore, savoir les concevoir de manière robuste et idempotente est crucial.

Présentation de Kafka Connect

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Un cluster Apache Kafka est déjà, à lui seul, une puissante infrastructure pour faire de l’event streaming… Et si nous pouvions, d’un coup de baguette magique, lui permettre de consommer des informations issues de systèmes de données plus traditionnels, tels que les bases de données ? C’est là qu’intervient Kafka Connect, un autre composant de l’écosystème du projet.

Le combo gagnant de la virtualisation : QEMU et KVM

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

C’est un fait : la virtualisation est partout ! Que ce soit pour la flexibilité des systèmes ou bien leur sécurité, l’adoption de la virtualisation augmente dans toutes les organisations depuis des années. Dans cet article, nous allons nous focaliser sur deux technologies : QEMU et KVM. En combinant les deux, il est possible de créer des environnements de virtualisation très robustes.

Body