Introduction au data mining en Python avec scikit-learn

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
78
Mois de parution
mai 2015
Domaines


Résumé

Le data mining est un ensemble de techniques mathématiques et algorithmiques pour extraire de l'information d'un jeu de données. Tandis que la statistique classique s'attache à décrire et expliquer les données, le data mining vise à découvrir des motifs et des structures dans les données pour éventuellement générer des prédictions. Nous allons voir dans cet article les bases théoriques du data mining, et plus particulièrement de l'apprentissage automatique, ainsi que leur mise en application avec la librairie Python scikit-learn.


1. Qu'est-ce que l'apprentissage automatique ?

L'apprentissage automatique [1] (machine learning en anglais) consiste à écrire un programme pour analyser automatiquement de larges volumes de données et en extraire des informations pertinentes. Tandis qu'un humain peut réaliser ce travail manuellement sur de faibles volumes de données, l'aide des ordinateurs est aujourd'hui nécessaire dans la plupart des cas.

Prenons un exemple, vous avez un grand nombre de photos que vous voulez trier et filtrer automatiquement de plusieurs manières :

  • Exemple 1 : Séparer les photos qui contiennent au moins un visage de celles qui n'en contiennent pas ;
  • Exemple 2 : Compter le nombre de personnes apparaissant dans chaque photo ;
  • Exemple 3 : Regrouper entre elles les photos de chaque personne ;
  • Exemple 4 : Reconnaître une personne à partir de sa photo ;
  • Exemple 5 : Reconnaître l'humeur d'une personne à partir de sa photo.

Réaliser ces tâches manuellement serait...

Cet article est réservé aux abonnés. Il vous reste 94% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Simulation d’un ordinateur mécanique en scriptant sous FreeCAD

Magazine
Marque
Hackable
Numéro
35
Mois de parution
octobre 2020
Domaines
Résumé

L’évolution du traitement du signal est une histoire fascinante largement déroulée par David Mindell dans ses divers ouvrages [1] et citations [2]. Partant de l’ordinateur mécanique avec ses rouages, poulies, bielles et crémaillères, le passage à l’électrique au début du 20ème siècle, puis à l’électronique intégrée avec l’avènement du transistor et des circuits intégrés (VLSI) nous ont fait oublier les stades initiaux qui ont amené à notre statut actuel d’ordinateurs infiniment puissants, précis et compacts. Alors que cette histoire semble s’accompagner du passage de l’analogique au numérique – de la manipulation de grandeurs continues en grandeurs discrètes avec son gain en stabilité et reproductibilité – il n’en est en fait rien : un boulier fournit déjà les bases du calcul discrétisé mécanique, tandis que [3] introduit les concepts du calcul mécanique avec les traitements numériques avant de passer aux traitements analogiques.

Conservez l’historique de vos commandes pour chaque projet, le retour

Magazine
Marque
GNU/Linux Magazine
Numéro
241
Mois de parution
octobre 2020
Domaines
Résumé

Pouvoir conserver un historique dédié pour chaque projet, voici l’idée géniale énoncée par Tristan Colombo dans un précédent article de GLMF [1]. Cet article reprend ce concept génial (je l’ai déjà dit?) et l’étoffe en simplifiant son installation et en ajoutant quelques fonctionnalités (comme l’autodétection de projets versionnés pour proposer à l’utilisateur d’activer un historique dédié, si ce n’est pas le cas).