Les articles de MISC Hors-Série N°18

De l’hermétisme au marketing. Qu’il s’agisse de lessive lavant plus blanc que blanc ou d’une énième vulnérabilité cataclysmique, la résultante invariable du marketing est de produire, à un moment, du faux.
La littérature regorge de livres traitant le sujet de l’apprentissage automatique, le Machine Learning.
Julien Cornebise est un expert francophone du Machine Learning qui a été l’un des premiers chercheurs de DeepMind, entreprise connue pour avoir notamment développé AlphaGo (une IA qui battra les meilleurs joueurs de Go au monde). Il a accepté de répondre à nos questions afin de nous faire découvrir le parcours d’un chercheur en Machine Learning.
Les voleurs de mots de passe ne sont pas une nouveauté, ni même, pour la plupart quelque chose d’exceptionnel d’un point de vue technique. Mais le nombre fait la force. Découvrons ce petit monde.
Le Machine Learning (ML) qu’on peut traduire par apprentissage automatique ou apprentissage machine (ou encore apprentissage statistique il y a encore quelques années) est catalogué comme une des 10 technologies de rupture par la Technology Review, célèbre revue du MIT. Devenue une expression fétiche il semble qu’aucun domaine ne va y échapper et il était inévitable que la sécurité s’y intéresse, reste à le faire de manière intelligente. Nous nous proposons dans cet article de faire un tour d’horizon des possibilités qu’offre le ML. Cet article devrait vous aider à faire vos premiers pas, à comprendre plus facilement les articles de ce hors-série et enfin, à permettre au lecteur d’évaluer l’intérêt d’une solution de sécurité qui se vante de faire du ML.
Machine Learning, l’ingrédient indispensable à la bonne recette de l’innovation ? Revoyons ensemble quels sont les vrais domaines où ce nouvel outil transformera réellement le paysage de la sécurité.
La détection d’intrusion suppose souvent que l’on connaisse ce qu’est une intrusion (détection par signature) ou ce qui relève d’une activité normale (détection d’anomalie). Cependant, le volume de données à traiter dans un réseau et leur complexité brouillent souvent la frontière entre ces deux principales catégories de flux réseau. Les techniques d’apprentissage profond portent la promesse d’une découverte facilitée des caractéristiques qui permettraient de distinguer flux réseau légitimes et intrusions. Cet article se propose d’aborder de manière pratique des résultats de recherche récents en utilisant des outils libres comme Keras et TensorFlow.
Cet article présente des techniques de clusterisation (classification automatique) de malwares pour se faciliter la vie dans l’écriture de règles Yara. Cela permet de diminuer fortement le taux de faux positifs. On commence par clusteriser notre ensemble de malwares, et, pour chaque cluster nous utilisons un générateur automatique de règles Yara. Nous donnons des exemples avec le jeu de données « theZoo ».
Nous voulons (par exemple) classifier un jeu de données très grand, disons quelques millions de données, voire quelques milliards, mais non labellisées. Face au problème, l’algorithme K-means semblait un bon candidat. Il s'agit d'un des grands classiques des algorithmes du Machine Learning qui comporte cependant un défaut : il est nécessaire de lui donner k, le nombre de clusters (c’est ce qu’on appelle un « hyperparamètre »). Quand cette valeur optimale est inconnue, il est coûteux de trouver une bonne approximation, surtout sur un très grand jeu de données. Pour pallier à ce problème, nous avons développé un nouvel algorithme : Automeans, cet algorithme calcule le nombre « optimal » de clusters.
Les progrès réalisés cette dernière décennie en Deep Learning ont profité à plusieurs domaines, ce qui lui a permis de s’imposer comme une approche incontournable en Machine Learning. La classification automatique des documents textuels est l’une des tâches dans laquelle le Deep Learning s’avère particulièrement utile et performant. Dans cet article, nous allons présenter en détail les aspects théoriques et pratiques liés à l’implémentation d’un système d’analyse des sentiments. Il s’agit de la classification automatique de tweets en trois classes : positive, négative ou neutre.
YaDiff est un outil permettant la propagation d’informations d’une base IDA vers une autre pour assister l’analyse de codes binaires. Il utilise un réseau de neurones entraîné à identifier les routines similaires.
Cet article est le troisième d'une mini-série sur le C++, ou plutôt sur les binaires compilés depuis C++, leurs particularités, comment les concepts du langage se retrouvent parfois dans le binaire final.
L'apprentissage par renforcement est un domaine de l'apprentissage statistique qui cherche à résoudre le problème de la prise de décision séquentielle dans l'incertitude.
Les graphes, composés de sommets et d’arêtes sont des objets communs en mathématiques (et indispensables) en informatique. Lorsqu’on veut manipuler des graphes de plusieurs centaines de millions de sommets, voire de plusieurs milliards de sommets, comme le graphe du web (ou un sous-ensemble) ou le graphe de certains réseaux sociaux, les choses se compliquent singulièrement : la plupart des algorithmes « académiques » se heurtent au « mur » de la complexité en temps (voire en espace), que nous appellerons le mur du « Big Data ». Tout algorithme dont la complexité est de l’ordre de O(n³) ou même de l’ordre de O(n²) est en fait inutilisable en pratique (ou très coûteux) dès lors que n, le nombre de sommets, dépasse (disons) le milliard. Il faut alors suivre d’autres stratégies. Il faut par exemple accepter de ne pouvoir calculer qu’une approximation même si dans certains cas, cette approximation peut en fait être la valeur exacte.