MISC Hors-série N°
Numéro
18

Machine Learning & sécurité

Temporalité
Novembre/Décembre 2018
Image v3
Machine learning et sécurité
Article mis en avant

Dans ce numéro...


Qu’il s’agisse de lessive lavant plus blanc que blanc ou d’une énième vulnérabilité cataclysmique, la résultante invariable du marketing est de produire, à un moment, du faux.
La littérature regorge de livres traitant le sujet de l’apprentissage automatique, le Machine Learning.
Julien Cornebise est un expert francophone du Machine Learning qui a été l’un des premiers chercheurs de DeepMind, entreprise connue pour avoir notamment développé AlphaGo (une IA qui battra les meilleurs joueurs de Go au monde). Il a accepté de répondre à nos questions afin de nous faire découvrir le parcours d’un chercheur en Machine Learning.
Les voleurs de mots de passe ne sont pas une nouveauté, ni même, pour la plupart quelque chose d’exceptionnel d’un point de vue technique. Mais le nombre fait la force. Découvrons ce petit monde.
Le Machine Learning (ML) qu’on peut traduire par apprentissage automatique ou apprentissage machine (ou encore apprentissage statistique il y a encore quelques années) est catalogué comme une des 10 technologies de rupture par la Technology Review, célèbre revue du MIT. Devenue une expression fétiche il semble qu’aucun domaine ne va y échapper et il était inévitable que la sécurité s’y intéresse, reste à le faire de manière intelligente. Nous nous proposons dans cet article de faire un tour d’horizon des possibilités qu’offre le ML. Cet article devrait vous aider à faire vos premiers pas, à comprendre plus facilement les articles de ce hors-série et enfin, à permettre au lecteur d’évaluer l’intérêt d’une solution de sécurité qui se vante de faire du ML.
Machine Learning, l’ingrédient indispensable à la bonne recette de l’innovation ? Revoyons ensemble quels sont les vrais domaines où ce nouvel outil transformera réellement le paysage de la sécurité.
La détection d’intrusion suppose souvent que l’on connaisse ce qu’est une intrusion (détection par signature) ou ce qui relève d’une activité normale (détection d’anomalie). Cependant, le volume de données à traiter dans un réseau et leur complexité brouillent souvent la frontière entre ces deux principales catégories de flux réseau. Les techniques d’apprentissage profond portent la promesse d’une découverte facilitée des caractéristiques qui permettraient de distinguer flux réseau légitimes et intrusions. Cet article se propose d’aborder de manière pratique des résultats de recherche récents en utilisant des outils libres comme Keras et TensorFlow.
Cet article présente des techniques de clusterisation (classification automatique) de malwares pour se faciliter la vie dans l’écriture de règles Yara. Cela permet de diminuer fortement le taux de faux positifs. On commence par clusteriser notre ensemble de malwares, et, pour chaque cluster nous utilisons un générateur automatique de règles Yara. Nous donnons des exemples avec le jeu de données « theZoo ».
Nous voulons (par exemple) classifier un jeu de données très grand, disons quelques millions de données, voire quelques milliards, mais non labellisées. Face au problème, l’algorithme K-means semblait un bon candidat. Il s'agit d'un des grands classiques des algorithmes du Machine Learning qui comporte cependant un défaut : il est nécessaire de lui donner k, le nombre de clusters (c’est ce qu’on appelle un « hyperparamètre »). Quand cette valeur optimale est inconnue, il est coûteux de trouver une bonne approximation, surtout sur un très grand jeu de données. Pour pallier à ce problème, nous avons développé un nouvel algorithme : Automeans, cet algorithme calcule le nombre « optimal » de clusters.
Les progrès réalisés cette dernière décennie en Deep Learning ont profité à plusieurs domaines, ce qui lui a permis de s’imposer comme une approche incontournable en Machine Learning. La classification automatique des documents textuels est l’une des tâches dans laquelle le Deep Learning s’avère particulièrement utile et performant. Dans cet article, nous allons présenter en détail les aspects théoriques et pratiques liés à l’implémentation d’un système d’analyse des sentiments. Il s’agit de la classification automatique de tweets en trois classes : positive, négative ou neutre.
YaDiff est un outil permettant la propagation d’informations d’une base IDA vers une autre pour assister l’analyse de codes binaires. Il utilise un réseau de neurones entraîné à identifier les routines similaires.
Cet article est le troisième d'une mini-série sur le C++, ou plutôt sur les binaires compilés depuis C++, leurs particularités, comment les concepts du langage se retrouvent parfois dans le binaire final.
L'apprentissage par renforcement est un domaine de l'apprentissage statistique qui cherche à résoudre le problème de la prise de décision séquentielle dans l'incertitude.
Les graphes, composés de sommets et d’arêtes sont des objets communs en mathématiques (et indispensables) en informatique. Lorsqu’on veut manipuler des graphes de plusieurs centaines de millions de sommets, voire de plusieurs milliards de sommets, comme le graphe du web (ou un sous-ensemble) ou le graphe de certains réseaux sociaux, les choses se compliquent singulièrement : la plupart des algorithmes « académiques » se heurtent au « mur » de la complexité en temps (voire en espace), que nous appellerons le mur du « Big Data ». Tout algorithme dont la complexité est de l’ordre de O(n³) ou même de l’ordre de O(n²) est en fait inutilisable en pratique (ou très coûteux) dès lors que n, le nombre de sommets, dépasse (disons) le milliard. Il faut alors suivre d’autres stratégies. Il faut par exemple accepter de ne pouvoir calculer qu’une approximation même si dans certains cas, cette approximation peut en fait être la valeur exacte.

Magazines précédents

Les derniers articles Premiums

Les derniers articles Premium

Stubby : protection de votre vie privée via le chiffrement des requêtes DNS

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Depuis les révélations d’Edward Snowden sur l’espionnage de masse des communications sur Internet par la NSA, un effort massif a été fait pour protéger la vie en ligne des internautes. Cet effort s’est principalement concentré sur les outils de communication avec la généralisation de l’usage du chiffrement sur le web (désormais, plus de 90 % des échanges se font en HTTPS) et l’adoption en masse des messageries utilisant des protocoles de chiffrement de bout en bout. Cependant, toutes ces communications, bien que chiffrées, utilisent un protocole qui, lui, n’est pas chiffré par défaut, loin de là : le DNS. Voyons ensemble quels sont les risques que cela induit pour les internautes et comment nous pouvons améliorer la situation.

Surveillez la consommation énergétique de votre code

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Être en mesure de surveiller la consommation énergétique de nos applications est une idée attrayante, qui n'est que trop souvent mise à la marge aujourd'hui. C'est d'ailleurs paradoxal, quand on pense que de plus en plus de voitures permettent de connaître la consommation instantanée et la consommation moyenne du véhicule, mais que nos chers ordinateurs, fleurons de la technologie, ne le permettent pas pour nos applications... Mais c'est aussi une tendance qui s'affirme petit à petit et à laquelle à terme, il devrait être difficile d'échapper. Car même si ce n'est qu'un effet de bord, elle nous amène à créer des programmes plus efficaces, qui sont également moins chers à exécuter.

Donnez une autre dimension à vos logs avec Vector

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Avoir des informations précises et détaillées sur ce qu’il se passe dans une infrastructure, et sur les applications qu'elle héberge est un enjeu critique pour votre business. Cependant, ça demande du temps, temps qu'on préfère parfois se réserver pour d'autres tâches jugées plus prioritaires. Mais qu'un système plante, qu'une application perde les pédales ou qu'une faille de sécurité soit découverte et c'est la panique à bord ! Alors je vous le demande, qui voudrait rester aveugle quand l'observabilité a tout à vous offrir ?

Body