Machine Learning : un (rapide) tour d’horizon

MISC

HS n°

novembre 2018

Par

Erra Robert

Sécurité système

Tag(s)

Réseau de neurones

Machine Learning

Clusterisation

Classification

Deep Learning

Le Machine Learning (ML) qu’on peut traduire par apprentissage automatique ou apprentissage machine (ou encore apprentissage statistique il y a encore quelques années) est catalogué comme une des 10 technologies de rupture par la Technology Review, célèbre revue du MIT. Devenue une expression fétiche il semble qu’aucun domaine ne va y échapper et il était inévitable que la sécurité s’y intéresse, reste à le faire de manière intelligente. Nous nous proposons dans cet article de faire un tour d’horizon des possibilités qu’offre le ML. Cet article devrait vous aider à faire vos premiers pas, à comprendre plus facilement les articles de ce hors-série et enfin, à permettre au lecteur d’évaluer l’intérêt d’une solution de sécurité qui se vante de faire du ML.

« If a machine is expected to be infaillible, it cannot also be intelligent. » - Alan Turing

Le Machine Learning est classé par la célèbre revue Technology Review du MIT comme une des 10 technologies de rupture [1] et ce, depuis plusieurs années. Soit. Est-ce une mode ? Oui. Et non. C’est une véritable révolution, mais cela n’empêche pas que certaines solutions proposées à la communauté cyber sont probablement inutiles et dues à un effet de mode, c’est inévitable. Dans les domaines du traitement d’images, de la vision, du traitement ou reconnaissance de la parole ou encore de la traduction automatique, les succès sont nombreux et impressionnants. Récemment, Google a fait sensation avec AlphaGo Zero, version améliorée de AlphaGo [4], ce sont des logiciels de jeu de Go qui sont devenus meilleurs que la plupart des joueurs professionnels développés par sa filiale DeepMind. AlphaGo a donné bien des soucis…

La suite est réservée aux abonnés. Il vous reste 97% à découvrir.

Déjà abonné ? Se connecter

Accédez à tous les contenus de Connect en illimité
Découvrez des listes de lecture et des contenus Premium
Consultez les nouveaux articles en avant-première

Envie de lire la suite ? Rejoignez Connect

Je m'abonne maintenant

Références

[1] https://www.technologyreview.com/lists/technologies/2018/

[2] http://scikit-learn.org

[3] https://fr.wikipedia.org/wiki/Apprentissage_automatique

[4] https://edubirdie.com/blog/alphago-zero-learning-scratch

[6] Y. LeCun, Y. Bengio & G. Hinton, Deep learning, Nature, vol. 521, 28 MAY 2015, disponible à : https://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

[7] A. Géron : Machine Learning avec Scikit-Learn, Mise en Œuvre et cas concrets, Dunod, 2017

[8] A. Géron : Deep Learning avec TensorFlow, Mise en Œuvre et cas concrets, Dunod, 2017.

[9] https://fr.wikipedia.org/wiki/Fonction_d%27activation

[10] THE MNIST DATABASE : http://yann.lecun.com/exdb/mnist/

[11] J. Hearty, Advanced Machine Learning with Python, PACKT Publishing, 2016.

[12] P. B. Sjardin, L. Massaron (Auteur), A. Boschetti, Large Scale Machine Learning with Python, PACKT Publishing, 2016.

[13] F. Chollet, Deep learning with Python, Manning Publications Co., 2018.

[14] C. Chio et D. Freeman, Machine Learning & Security, protecting systems with data and algorithms, O’Reilly, 2018.

Pour aller plus loin

Le Web regorge de ressources. Attention à GitHub, beaucoup de codes donnés en exemple ne fonctionnent pas. On peut citer :

Les « dépôts » de données (en plus des jeux de données qu’on trouve dans Scikit-Learn) :
UC Irvine Machine Learning Repository : https://archive.ics.uci.edu/ml/index.php
Kaggle, un site de challenges : https://www.kaggle.com/
Datascience.net, idem, mais en langue française : https://www.datascience.net/fr/challenge
Le site https://keras.io/datasets/ décrit des jeux de données prêts à l’emploi.
Coursera qui contient de nombreux cours, tous niveaux : https://www.coursera.org/
Idem pour EDX : https://www.edx.org/
Si vous voulez jouer avec le célèbre jeu de données de digits du MNIST (avec Keras), avec des réseaux de neurones convolutionnels : https://machinelearningmastery.com/handwritten-digit-recognition-using-convolutional-neural-networks-python-keras/ et https://nextjournal.com/gkoehler/digit-recognition-with-keras
Le logiciel Alligator (AnaLyzing maLware wIth partitioninG and probAbiliTy-based algORithms), co-écrit par L. Apvril et A. Apvril : http://alligator.telecom-paristech.fr/
Le site www.fast.ai, lisez notamment l’étonnant billet : http://www.fast.ai/2018/08/10/fastai-diu-imagenet/
Les conférences de Y. LeCun au Collège de France : https://www.college-de-france.fr/site/yann-lecun/

Par le(s) même(s) auteur(s)

Plus d'article de cet auteur

Graphes géants creux : comment définir le centre du Web

MISC

HS n°

novembre 2018

Par

Erra Robert

Algo

Data / Big Data

Les graphes, composés de sommets et d’arêtes sont des objets communs en mathématiques (et indispensables) en informatique. Lorsqu’on veut manipuler des graphes de plusieurs centaines de millions de sommets, voire de plusieurs milliards de sommets, comme le graphe du web (ou un sous-ensemble) ou le graphe de certains réseaux sociaux, les choses se compliquent singulièrement : la plupart des algorithmes « académiques » se heurtent au « mur » de la complexité en temps (voire en espace), que nous appellerons le mur du « Big Data ». Tout algorithme dont la complexité est de l’ordre de O(n³) ou même de l’ordre de O(n²) est en fait inutilisable en pratique (ou très coûteux) dès lors que n, le nombre de sommets, dépasse (disons) le milliard. Il faut alors suivre d’autres stratégies. Il faut par exemple accepter de ne pouvoir calculer qu’une approximation même si dans certains cas, cette approximation peut en fait être la valeur exacte.

Lire l'article

Introduction au dossier : Machine learning et sécurité

MISC

HS n°

novembre 2018

Par

Erra Robert

Sécurité système

Se promener au FIC 2018 permettait de se rendre compte, jusqu’à la nausée, qu’un invité de marque était présent sur pas mal de stands : le Machine Learning (ML)...

Lire l'article

Entretien avec Julien Cornebise, expert en Machine Learning

MISC

HS n°

novembre 2018

Par

Erra Robert

Témoignage

Julien Cornebise est un expert francophone du Machine Learning qui a été l’un des premiers chercheurs de DeepMind, entreprise connue pour avoir notamment développé AlphaGo (une IA qui battra les meilleurs joueurs de Go au monde). Il a accepté de répondre à nos questions afin de nous faire découvrir le parcours d’un chercheur en Machine Learning.

Lire l'article

Les listes de lecture

Python niveau débutant

9 article(s) - ajoutée le 01/07/2020

Code

Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.

Au pays des algorithmes

11 article(s) - ajoutée le 01/07/2020

Algo

La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.

Analyse de données en Python

10 article(s) - ajoutée le 01/07/2020

Code

À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.

Plus de listes de lecture

Machine Learning : un (rapide) tour d’horizon

Pour aller plus loin

Article rédigé par

Erra Robert

Par le(s) même(s) auteur(s)

Graphes géants creux : comment définir le centre du Web

Introduction au dossier : Machine learning et sécurité

Entretien avec Julien Cornebise, expert en Machine Learning

Les listes de lecture

Python niveau débutant

Au pays des algorithmes

Analyse de données en Python