Le Data mining ou fouille de données

GNU/Linux Magazine

HS n°

juillet 2013

Par

Colombo Tristan

Algo

Tag(s)

Base de données

Data Mining

Fouille de données

À l'époque du Far West et de la ruée vers l'or, les chercheurs d'or se précipitaient sur les filons aurifères. Il y avait ceux qui ne trouvaient rien, étaient ruinés et ceux qui trouvaient quelques petites pépites. C'était la majorité des prospecteurs. Toutefois, pour quelques-uns, c'était le jackpot. Le Data mining, c'est la ruée vers l'or transposée aux données. De nos jours, les entreprises, les administrations, les chercheurs sont inondés de données. À titre d'exemple, si l'on regarde le domaine de la bio-informatique, de 2004 à 2013, donc en moins de dix ans, on est passé de 57 à 4142 génomes bactériens séquencés [1], soit une augmentation de 7266% représentant des To et des To de données. Je ne rentrerai pas ici dans le débat sur l'aspect qualitatif des données (est-ce qu'il vaut mieux avoir peu de données de très bonne qualité, ou beaucoup de données possédant un fort taux d'erreur ?), je m'arrêterai sur un simple fait : il y a trop de données pour pouvoir toutes les analyser manuellement. C'est là que va intervenir le Data mining.

1. Qu'est-ce que le Data mining ?

Littéralement, Data mining signifie fouille de données. Le Data mining permet d'explorer et donc, de « fouiller » dans un grand volume de données de manière à les rendre plus compréhensibles et à en extraire des règles de classement et de prédiction. En reprenant le vocabulaire minier, en effectuant un forage dans les données, on doit être en mesure de découvrir des pépites cachées dans le filon des informations.

Le Data mining s'applique toujours sur un important volume de données. Ces données peuvent provenir de sources très différentes : j'ai évoqué précédemment la bio-informatique avec les génomes, mais on peut aussi analyser des données issue de l'astrophysique, des tickets de caisse, etc. Les connaissances extraites de ces données ne seront bien sûr pas toutes exploitées de la même manière :

certaines permettront de décrire le comportement actuel des données,
alors que d'autres permettront de...

Cet article est réservé aux abonnés. Il vous reste 95% à découvrir.

S'abonner à Connect

Accédez à tous les contenus de Connect en illimité
Découvrez des listes de lecture et des contenus Premium
Consultez les nouveaux articles en avant-première

Je m'abonne

Déjà abonné ? Connectez-vous

Article rédigé par

Colombo Tristan

Coordinateur/Enseignant filière informatique numérique, CCI Provence Alpes Côte d'Azur

706 articles

Par le(s) même(s) auteur(s)

Contrôler un serveur avec des SMS

GNU/Linux Magazine

HS n°

118

février 2022

Par

Colombo Tristan

Système

Embarqué

Utiliser des SMS pour communiquer avec un serveur peut paraître assez loufoque à notre époque. Pourtant, cela peut être très utile quand l’utilisateur final n’est pas un informaticien et que l’on ne souhaite pas nécessairement développer une application spécifique.

Ajouter à une liste de lecture

Création de modèles de documents LaTeX

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Bureautique

Lorsque l’on rédige un document en LaTeX, on se base nécessairement sur un modèle. Dans cet article, nous allons voir comment créer nos propres modèles de documents.

Ajouter à une liste de lecture

Jouons avec le bytecode Python !

GNU/Linux Magazine

n°

255

janvier 2022

Par

Colombo Tristan

Code

Comme tout développeur Python le sait (en tout cas, il faut l'espérer), Python est un langage semi-interprété compilé dans un pseudo-code, le bytecode, et exécuté dans une machine virtuelle. Voyons dans cet article comment le modifier à la volée.

Ajouter à une liste de lecture

Plus d'article de cet auteur

Les derniers articles Premiums

Les derniers articles Premium

Utilisation avancée de SQLPage

Contenu Premium

Par

Auverlot Olivier

Code

Web

Poursuivons notre découverte de SQLPage en explorant certaines de ses fonctionnalités avancées qui sont généralement indispensables à tous sites ou applications. Dans cet article, nous allons parler de PostgreSQL, d’authentification et de gestion des droits.

Ajouter à une liste de lecture

Déployer un cluster AMQ Streams avec Ansible

Contenu Premium

Par

Pelisse Romain

Système

Automatiser entièrement le déploiement d’un cluster Red Hat AMQ Streams est possible… en utilisant Ansible et sa collection dédiée au produit. Démonstration par l’exemple.

Ajouter à une liste de lecture

Bénéficiez de statistiques de fréquentations web légères et respectueuses avec Plausible Analytics

Contenu Premium

Par

Mourey Stéphane

Web

Pour être visible sur le Web, un site est indispensable, cela va de soi. Mais il est impossible d’en évaluer le succès, ni celui de ses améliorations, sans établir de statistiques de fréquentation : combien de visiteurs ? Combien de pages consultées ? Quel temps passé ? Comment savoir si le nouveau design plaît réellement ? Autant de questions auxquelles Plausible se propose de répondre.

Ajouter à une liste de lecture

Quarkus : applications Java pour conteneurs

Contenu Premium

Par

Pelisse Romain

Système

Code

Initié par Red Hat, il y a quelques années le projet Quarkus a pris son envol et en est désormais à sa troisième version majeure. Il propose un cadre d’exécution pour une application de Java radicalement différente, où son exécution ultra optimisée en fait un parfait candidat pour le déploiement sur des conteneurs tels que ceux de Docker ou Podman. Quarkus va même encore plus loin, en permettant de transformer l’application Java en un exécutable natif ! Voici une rapide introduction, par la pratique, à cet incroyable framework, qui nous offrira l’opportunité d’illustrer également sa facilité de prise en main.

Ajouter à une liste de lecture

Les listes de lecture

Python niveau débutant

9 article(s) - ajoutée le 01/07/2020

Code

Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.

Au pays des algorithmes

11 article(s) - ajoutée le 01/07/2020

Algo

La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.

Analyse de données en Python

10 article(s) - ajoutée le 01/07/2020

Code

À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.

Voir les 64 listes de lecture

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous