Vous maîtrisez Python, les possibilités offertes par R vous paraissent très intéressantes, mais vous n'avez pas envie (ou le temps) d'apprendre un nouveau langage ? Essayez avec Pandas et les modules scientifiques !
Pandas est un paquetage Python permettant de manipuler des données puis de réaliser simplement leur analyse... pour peu que l'on soit un minimum familier de NumPy et Matplotlib. Si ce que vous cherchez à faire se borne à appeler des fonctions R depuis Python, ce n'est pas Pandas qu'il faudra utiliser, mais rpy2. Pour ne pas vous frustrer, même si cela sort du champ de cet article, nous allons commencer par un aperçu très rapide de rpy2 en traduisant un exemple R puis nous utiliserons Pandas de la même manière, en partant là aussi d'un exemple.
1. rpy2 : attaquer R depuis Python
L'installation se fait de manière classique en utilisant pip :
# pip3 install rpy2
Nous allons calculer la corrélation de Pearson permettant de répondre à la question suivante : existe-t-il un lien entre le poids et la pointure des sujets étudiés ? Les données sont contenues dans un fichier pearson.csv(pour les lecteurs attentifs, il s'agit du même exemple que celui...
- Accédez à tous les contenus de Connect en illimité
- Découvrez des listes de lecture et des contenus Premium
- Consultez les nouveaux articles en avant-première