Les articles de GNU/Linux Magazine Hors-Série N°73

Image promotionnelle
Calcul scientifique avec NumPy
Article mis en avant

Préface

L'un des innombrables intérêts de Python vient de la mise à disposition des développeurs d'un nombre impressionnant de modules. Mais pour pouvoir les utiliser, encore faut-il savoir qu'ils existent et comment ils fonctionnent...

NumPy est aujourd'hui une bibliothèque de référence pour le calcul scientifique. Elle permet de déclarer des polynômes, vecteurs, matrices ou tableaux multidimensionnels et de les manipuler à l'aide de fonctions mathématiques de haut niveau.
SciPy est l'autre grande bibliothèque pour le calcul scientifique. Pour être plus précis, il s'agit aussi d'un projet qui a pour vocation de réunir diverses bibliothèques en une seule (dont NumPy et Matplotlib), le tout offrant un large ensemble de fonctionnalités dédiées au calcul scientifique.
Il arrive que l'on souhaite traiter de très grandes quantités de données. Ces données doivent être stockées dans un ou plusieurs fichiers pour lesquels on va choisir une structure permettant un traitement le plus simple et le plus rapide possible. Les formats « standards » de fichier ne seront pas toujours suffisamment efficaces en fonction de la quantité de données. Il faut alors se tourner vers le format HDF5.
Matplotlib est une librairie graphique 2D (avec un support partiel de la 3D), qui est la librairie standard pour la visualisation scientifique. Elle permet notamment d'exporter vers tous les formats standards de publication (vectoriel ou bitmap) et peut être aussi utilisée pour simplement faire du graphisme.
Vispy est une nouvelle librairie open source de visualisation haute performance en Python. Basée sur l'interface graphique libre OpenGL, Vispy permet au scientifique d'exploiter toute la puissance du processeur graphique (GPU) pour la visualisation interactive de gros volumes de données 2D et 3D.
Python s'est installé assez rapidement dans le monde de la recherche en astrophysique. Balayé par le vent Python, une communauté internationale de chercheurs, ingénieurs et astrophysiciens a mis en place une bibliothèque qui regroupe les méthodes et fonctions indispensables pour les développements de programmes de traitement de données en astrophysique : Astropy. Je vous propose d'entrer dans cet univers Astropy et de commencer à vous amuser avec les étoiles et galaxies qui peuplent notre espace sidéral.
Pour faire face aux défis de la biologie, la bioinformatique propose des modules qui permettent de rendre accessibles des fonctions basiques et avancées d’analyse de données. Les données traitées sont en général des séquences d'ADN qu’il s’agira d’identifier, d’aligner et d'analyser grâce à la littérature scientifique. Les formats les plus utilisés en bioanalyse, comme les formats FASTA et GenBank demeurent par certains aspects difficiles à manipuler. Nous vous proposons un didacticiel qui introduira les fonctions de Biopython, un module Python dédié à la manipulation de données biologiques dans le cadre de l’analyse complète d’une séquence d’ADN.
Comment reconnaître un spam d'un mail ? Comment prédire la météo ? Comment ranger automatiquement des documents dans différentes catégories ? Comment séparer les différentes sources d'une bande sonore ? À toutes ces questions, une même réponse : l'apprentissage statistique.
Quel peut être l'intérêt de paralléliser un traitement ? Pourquoi et comment cela rend-il le programme plus rapide ? Quelle est la différence entre tâches et processus ? Lequel utiliser pour résoudre ma problématique ? Entrez dans les méandres de la programmation parallèle et découvrez à quel point paralléliser un programme peut être simple en Python.
Lorsque l'on réalise certaines opérations complexes, la recherche de performances est une clé importante. Il y a beaucoup d'options pour rendre un algorithme performant, mais on n'a pas forcément accès à un serveur de 32 processeurs et disposant de 64 Go de RAM ! On se contente en général d'un seul CPU dont les meilleurs ont deux, quatre ou huit cœurs.