Analyse de données en Python

mars 2019

Par

Il est très simple de faire dire tout et son contraire à des jeux de données. Il est même possible de s'amuser à trouver des corrélations entre des données qui n'ont absolument rien à voir : le nombre de buts marqués par une équipe de football et la consommation d'alcool des supporters, la fréquence de diffusion des titres d'un chanteur X et le taux de suicide chez les moins de 25 ans, etc. Je vous invite dans cet article à un voyage dans le monde merveilleux des « spurious correlations ».

Lire l'article

L'analyse de données en Python ou comment faire du R sans R

GNU/Linux Magazine

n°

188

décembre 2015

Par

Vous maîtrisez Python, les possibilités offertes par R vous paraissent très intéressantes, mais vous n'avez pas envie (ou le temps) d'apprendre un nouveau langage ? Essayez avec Pandas et les modules scientifiques !

Lire l'article

Nettoyer des données CSV avec Pandas

GNU/Linux Magazine

HS n°

mars 2018

Par

L'objectif : Nous disposons d'un fichier CSV dont certaines lignes ne sont pas remplies complètement

Lire l'article

Effectuer des opérations sur les colonnes d'une DataFrame Pandas

GNU/Linux Magazine

HS n°

mars 2018

Par

L'objectif : Nous disposons d'une DataFrame Pandas (peut importe comment les données ont été obtenues), et nous souhaitons effectuer des opérations sur les colonnes.

Lire l'article

Combiner les colonnes d'une DataFrame Pandas

GNU/Linux Magazine

HS n°

mars 2018

Par

L'objectif : Nous disposons d'une DataFrame contenant des cellules vides

Lire l'article

Quels outils pour représenter graphiquement des données ?

GNU/Linux Magazine

HS n°

mars 2019

Par

Produire une représentation graphique de ses données, c'est se donner la possibilité de mettre en relief des relations qui ne sont pas forcément triviales et pour cela, de nombreux outils sont disponibles... et s'ils sont en plus capables de traiter des volumes importants de données, ce n'est que mieux !

Lire l'article

Introduction au data mining en Python avec scikit-learn

GNU/Linux Magazine

HS n°

mai 2015

Par

Rossant Cyrille

Le data mining est un ensemble de techniques mathématiques et algorithmiques pour extraire de l'information d'un jeu de données. Tandis que la statistique classique s'attache à décrire et expliquer les données, le data mining vise à découvrir des motifs et des structures dans les données pour éventuellement générer des prédictions. Nous allons voir dans cet article les bases théoriques du data mining, et plus particulièrement de l'apprentissage automatique, ainsi que leur mise en application avec la librairie Python scikit-learn.

Lire l'article

La malédiction de la dimension

GNU/Linux Magazine

HS n°

janvier 2018

Par

Saupin Guillaume

Il existe une terrible malédiction à laquelle se heurte le data scientist : la malédiction de la dimension. Ce terrible fléau frappe lorsque le nombre de variables d’un ensemble de données devient trop important. Dans ce cas, afin de permettre une analyse précise dans chacune des dimensions, il faut un ensemble de mesures tout à fait gigantesque. De plus, la multiplication des dimensions rend l’analyse très complexe. Difficile pour un humain d’appréhender les relations entre autant de variables.

Lire l'article

Orange, un outil graphique pour analyser ses données en toute simplicité

GNU/Linux Magazine

HS n°

mars 2019

Par

On peut analyser ses données uniquement en mode texte, mais il arrivera toujours un moment où nous aurons besoin d'une visualisation graphique des résultats, quelque chose de tangible que l'on pourra appréhender simplement. Orange propose cela, mais également toutes les étapes préliminaires.

Lire l'article

Identifier des groupes de données par classification

GNU/Linux Magazine

HS n°

mars 2019

Par