Automeans, ou comment éviter le « k par k » avec K-means

Magazine
Marque
MISC
HS n°
Numéro
18
|
Mois de parution
novembre 2018
|
Domaines


Résumé

Nous voulons (par exemple) classifier un jeu de données très grand, disons quelques millions de données, voire quelques milliards, mais non labellisées. Face au problème, l’algorithme K-means semblait un bon candidat. Il s'agit d'un des grands classiques des algorithmes du Machine Learning qui comporte cependant un défaut : il est nécessaire de lui donner k, le nombre de clusters (c’est ce qu’on appelle un « hyperparamètre »). Quand cette valeur optimale est inconnue, il est coûteux de trouver une bonne approximation, surtout sur un très grand jeu de données. Pour pallier à ce problème, nous avons développé un nouvel algorithme : Automeans, cet algorithme calcule le nombre « optimal » de clusters.


La suite est réservée aux abonnés. Déjà abonné ? Se connecter

Sur le même sujet

Désamorcer des bombes logiques

Magazine
Marque
MISC
Numéro
111
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Aujourd’hui, les développeurs de code malveillant sont capables de contourner les mesures de sécurité et les techniques d’analyse les plus poussées grâce à de simples mécanismes appelés « bombes logiques ». Un exemple significatif est le Google Play qui accepte toujours des applications malveillantes pouvant déjouer ses barrières de sécurité. Cette introduction aux bombes logiques permet de sensibiliser sur les différentes solutions pouvant être mises en place pour détecter ces artifices.

Introduction au dossier : Télétravail : comment ne pas sacrifier la sécurité ?

Magazine
Marque
MISC
Numéro
111
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Le dossier du précédent numéro traitait du concept de « Zero Trust ». Le numéro actuel est en quelque sorte une suite logique : nous passons d’un idéal où l’accès distant est possible « par design », à une réalité où il a fallu faire des choix fonctionnels et être conciliant avec la sécurité.

Assurez l’intégrité de vos fichiers avec fs-verity

Magazine
Marque
Linux Pratique
HS n°
Numéro
48
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Vous êtes-vous déjà demandé comment faire pour protéger des fichiers importants ? Votre système d’exploitation vous a-t-il déjà informé que vos fichiers étaient corrompus ? Pensez-vous souvent à l’intégrité des informations contenues dans vos fichiers ? Vous êtes tombé au bon endroit, nous découvrirons ici comment protéger vos données avec fs-verity.

Détection d'anomalies par ACP

Magazine
Marque
MISC
Numéro
111
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Retour de vacances. L’analyse du SIEM après un mois d’absence montre que dix incidents ont été déclenchés sur la base des alertes automatiques et ont pu être gérés convenablement par la chaîne de traitement d’incidents. Tout est-il sous contrôle ? Un analyste aimerait rapidement s’en assurer en complétant cette supervision par sa propre analyse du mois écoulé. Mais par où commencer ? Il est inenvisageable de regarder un mois de logs « rapidement » et d’autant plus quand on ne sait pas précisément ce que l’on cherche… Une solution possible est de recourir à des outils statistiques qui permettent d’identifier des périodes d’activité atypiques sur lesquelles concentrer son analyse. L’analyse en composantes principales (ACP ou PCA en anglais) est une méthode statistique qui peut répondre relativement efficacement à cette problématique. L’article présente cette méthode et son apport dans la détection d’anomalies, en prenant comme exemple l’analyse de flux réseaux.

Télétravail : une sécurité à repenser et une nouvelle organisation à encadrer

Magazine
Marque
MISC
Numéro
111
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Entre mode et nécessité, le télétravail nous oblige à repenser notre organisation du travail et les règles de sécurité associées. Comment mettre en place ces nouveaux modèles sans risque pour l’entreprise et ses salariés ?

Garder ses secrets avec Tomb

Magazine
Marque
Linux Pratique
HS n°
Numéro
48
|
Mois de parution
septembre 2020
|
Domaines
Résumé

Pour conserver des documents privés sur un disque dur ou un support amovible, il est nécessaire d'avoir recours au chiffrement. L'outil Tomb permet de manipuler simplement des répertoires chiffrés par le standard LUKS, pensé dans un d'esprit de confort et de mobilité.

Par le même auteur

Automeans, ou comment éviter le « k par k » avec K-means

Magazine
Marque
MISC
HS n°
Numéro
18
|
Mois de parution
novembre 2018
|
Domaines
Résumé

Nous voulons (par exemple) classifier un jeu de données très grand, disons quelques millions de données, voire quelques milliards, mais non labellisées. Face au problème, l’algorithme K-means semblait un bon candidat. Il s'agit d'un des grands classiques des algorithmes du Machine Learning qui comporte cependant un défaut : il est nécessaire de lui donner k, le nombre de clusters (c’est ce qu’on appelle un « hyperparamètre »). Quand cette valeur optimale est inconnue, il est coûteux de trouver une bonne approximation, surtout sur un très grand jeu de données. Pour pallier à ce problème, nous avons développé un nouvel algorithme : Automeans, cet algorithme calcule le nombre « optimal » de clusters.