Introduction au data mining en Python avec scikit-learn

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
78
Mois de parution
mai 2015
Domaines


Résumé

Le data mining est un ensemble de techniques mathématiques et algorithmiques pour extraire de l'information d'un jeu de données. Tandis que la statistique classique s'attache à décrire et expliquer les données, le data mining vise à découvrir des motifs et des structures dans les données pour éventuellement générer des prédictions. Nous allons voir dans cet article les bases théoriques du data mining, et plus particulièrement de l'apprentissage automatique, ainsi que leur mise en application avec la librairie Python scikit-learn.


1. Qu'est-ce que l'apprentissage automatique ?

L'apprentissage automatique [1] (machine learning en anglais) consiste à écrire un programme pour analyser automatiquement de larges volumes de données et en extraire des informations pertinentes. Tandis qu'un humain peut réaliser ce travail manuellement sur de faibles volumes de données, l'aide des ordinateurs est aujourd'hui nécessaire dans la plupart des cas.

Prenons un exemple, vous avez un grand nombre de photos que vous voulez trier et filtrer automatiquement de plusieurs manières :

  • Exemple 1 : Séparer les photos qui contiennent au moins un visage de celles qui n'en contiennent pas ;
  • Exemple 2 : Compter le nombre de personnes apparaissant dans chaque photo ;
  • Exemple 3 : Regrouper entre elles les photos de chaque personne ;
  • Exemple 4 : Reconnaître une personne à partir de sa photo ;
  • Exemple 5 : Reconnaître l'humeur d'une personne à partir de sa photo.

Réaliser ces tâches manuellement serait...

Cet article est réservé aux abonnés. Il vous reste 94% à découvrir.
à partir de 21,65€ HT/mois/lecteur pour un accès 5 lecteurs à toute la plateforme
J'en profite


Articles qui pourraient vous intéresser...

Découvrez la programmation différentiable

Magazine
Marque
GNU/Linux Magazine
Numéro
246
Mois de parution
mars 2021
Domaines
Résumé

La programmation différentiable est une nouvelle façon de penser la programmation. Le principe consiste à considérer tout un programme comme une fonction qu’on puisse différentier, et donc optimiser. Nous allons construire dans cet article les outils de base pour ce faire, et présenter la librairie JAX, qui facilite la tâche.

Concevoir des tableaux en LaTeX

Magazine
Marque
GNU/Linux Magazine
HS n°
Numéro
113
Mois de parution
mars 2021
Domaines
Résumé

Il n'est pas rare de vouloir intégrer de petits tableaux dans ses documents. LaTeX permet de créer rapidement et simplement une telle représentation d'informations. Il est également possible, avec un peu d'huile de coude, de créer des tableaux très complexes ! Ce n'est pas si compliqué... à condition de savoir comment faire !

De l'usage de l'underscore en Python

Magazine
Marque
GNU/Linux Magazine
Numéro
246
Mois de parution
mars 2021
Domaines
Résumé

Un underscore avant le nom d'un attribut ou deux, est-ce un caprice de développeur ? Et si je veux utiliser des underscores après le nom de mes variables, est-ce que cela a une signification ? Tout, tout, tout, vous saurez tout sur l'usage des underscores en Python !

Parler à un RADAR spatioporté : traitement et analyse des données de Sentinel-1

Magazine
Marque
GNU/Linux Magazine
Numéro
246
Mois de parution
mars 2021
Domaines
Résumé

Nous avions étudié comment fonctionne un RADAR pour la mesure de distance, puis d’azimut et finalement interférométrique, lors d’un déploiement depuis le sol. Nous allons appliquer ces connaissances aux données acquises par les RADAR transportés par les satellites de l’ESA Sentinel-1, librement disponibles sur le Web. Nous conclurons en installant au sol une cible coopérative qui sera parfaitement visible depuis l’espace.