Filtrez vos courriels avec Python

Magazine
Marque
GNU/Linux Magazine
Numéro
195
|
Mois de parution
juillet 2016
|
Domaines


Résumé
Vous utilisez sans doute IMAP (Internet Message Access Protocol) pour lire votre courrier. N'avez -vous jamais eu envie d'écrire un script utilisant ce protocole afin d'effectuer des opérations courantes (marquer un fil de discussion comme lu, le déplacer, etc.) automatiquement ? C'est possible grâce à Python et son module imaplib, qui fait partie de la bibliothèque standard.

Body


L'objectif

Gerrit est une application Web qui permet aux développeurs de lire, commenter et valider (ou non) des patches proposés sur des projets utilisant le gestionnaire de versions Git. À chaque fois qu'un événement (nouveau commentaire, acceptation/rejet du patch, etc.) survient sur un patch donné, les développeurs le souhaitant reçoivent une notification par courriel. Cette fonctionnalité est très pratique, mais elle peut générer énormément de courriers.

Il convient donc de s'aider de filtres pour gérer ces notifications. La première étape consiste à ranger les courriers ainsi générés dans un dossier « Revue de code », mais ce n'est pas suffisant. En effet, il est assez frustrant de lire tout un fil de discussion concernant un patch pour se rendre compte, en arrivant au dernier message, qu'il a été accepté et poussé dans le dépôt Git. Il serait fort pratique que tout le fil soit automatiquement marqué comme lu.

Les filtres disponibles dans la plupart des clients de messagerie populaires offrent rarement la possibilité d'appliquer une action à tout un fil de discussion : ils travaillent en général sur un seul message. Écrivons donc un script Python afin de résoudre ce problème.

Les outils

- Python 3 : une version récente (>= 3.4);

- Une boîte aux lettres supportant IMAP;

- Un éditeur de texte.

Phase 1 : plan d'attaque

À chaque patch proposé sur Gerrit correspond un fil de discussion, au sein duquel tous les messages sont une réponse au premier. Lorsqu'un patch est accepté, le système d'intégration continue (ici, Jenkins) envoie un courrier contenant la phrase suivante : « Jenkins has submitted this change and it was merged ». Il est donc aisé de décomposer l'écriture de notre script en plusieurs phases :

- Chercher les messages non lus envoyés par Jenkins dans le corps desquels se trouve la phrase « Jenkins has submitted this change and it was merged »;

- Pour chacun de ces messages, récupérer la valeur du champ « In-Reply-To »;

- Chercher les messages ayant un champ « Message-Id » ou « In-Reply-To » contenant une de ces valeurs;

- Les marquer comme lus.

Le script final est disponible à l'adresse suivante : https://framagit.org/Steap/GLMF-articles/blob/master/python-imaplib/mail_filter.py. La classe MailFilter implémente toutes les opérations que nous venons de décrire. On notera que, par souci de lisibilité, la gestion des erreurs est assez insatisfaisante.

Phase 2 : connexion/déconnexion

La première chose à faire lorsque l'on souhaite travailler sur sa boîte aux lettres est de s'assurer que l'on peut s'y connecter. Les paramètres dépendent évidemment du service de messagerie utilisé, mais la connexion se fait toujours de la façon suivante :

# Ici, la configuration pour OpenMailBox.org

>>> import imaplib

>>> conn = imaplib.IMAP4_SSL('imap.openmailbox.org')

>>> conn.login('username@openmailbox.org', 'motdepasse')

('OK', [b'Logged in'])

C'est notamment ce que fait la méthode __init__ de notre classe MailFilter (il suffit de convertir les lignes ci-dessus en constructeur, donc __init__, de MailFilter)

Afin de se convaincre que la connexion a bien été établie, listons les boîtes disponibles :

>>> conn.list()

('OK', [b'(\\HasNoChildren \\UnMarked \\Trash) "/" Trash', b'(\\HasNoChildren \\UnMarked \\Junk) "/" Spam', b'(\\HasNoChildren \\UnMarked \\Sent) "/" Sent', b'(\\HasNoChildren \\UnMarked \\Drafts) "/" Drafts', b'(\\HasNoChildren) "/" INBOX'])

Finalement, il est possible de clore la connexion :

>>> conn.logout()

('BYE', [b'Logging out'])

Phase 3 : rechercher des courriers

La première étape de notre script consiste à chercher tous les messages de la boîte sélectionnée répondant aux trois critères suivants :

- non-lus;

- envoyés par Jenkins;

- contenant un motif particulier dans le corps.

Nous allons donc utiliser la commande search. Sa documentation, disponible à la section 6.4.4 de la RFC 3501 (https://tools.ietf.org/html/rfc3501), nous indique les clés à lui passer afin de filtrer les messages selon les trois conditions que nous venons de rappeler :

- UNSEEN pour ne récupérer que les messages non-lus;

- HEADER From "Jenkins" pour ne s'intéresser qu'à ceux envoyés par Jenkins;

- BODY "Jenkins has submitted this change and it was merged" pour filtrer selon le contenu du message.

La méthode _search_messages implémente cette recherche :

def _search_messages(self):

    ok, uids = self.conn.uid(

                'search', None,

                '(UNSEEN HEADER From "Jenkins" '

                'BODY "Jenkins has submitted this change and it was merged")')

La méthode uid prend en argument une commande (ici, search), les arguments de cette commande (aucun argument ici, nous passons donc None), et enfin les clés que nous évoquions précédemment. Elle retourne deux valeurs : la première devrait être égale à la chaîne de caractères OK, la deuxième est une liste d'uids identifiant de façon unique chacun des messages trouvés.

Pour être tout à fait précise, cette liste ne contient qu'un seul élément : une chaîne contenant tous les identifiants, séparés par des espaces. Il peut sembler opportun de faire retourner à _search_messages une liste plutôt qu'une telle chaîne :

# uids looks like [b'10 25 100 137']

return uids[0].split(b' ')

Phase 4 : récupérer les en-têtes

Il nous faut désormais récupérer la valeur du champ « In-Reply-To » pour chacun des messages trouvés, et ce grâce à la commande fetch du protocole IMAP. Elle prend en argument un ou plusieurs identifiants uniques de courriels (séparés par des virgules) et des macros spécifiées à la section 6.4.5 de la RFC. Regardons la méthode _fetch_messages :

def _fetch_messages(self, ids):

    ok, data = self.conn.uid(

                'fetch', b','.join(ids),

                'BODY[HEADER.FIELDS (IN-REPLY-TO)]')

    assert ok == 'OK'

    return data

Nous demandons ici uniquement le champ « In-Reply-To ». Pour chaque message traité, nous recevons 2 éléments. Le premier est un tuple, contenant la réponse qui nous intéresse :

(b'8 (UID 81659 BODY[HEADER.FIELDS (IN-REPLY-TO)] {102}',

b'In-Reply-To: <gerrit.1460024962000.Ib58a9d0b9cc95a831981de0cc19456f0c6713dbb@review.openstack.org>\r\n\r\n')

En « nettoyant » la chaîne, on peut donc récupérer l'identifiant : « gerrit...openstack.org ».

Le second nous informe que les drapeaux du message ont été modifiés. En effet, utiliser BODY marque implicitement le message comme lu :

b' FLAGS (\\Seen))'

Cette partie ne nous intéresse pas particulièrement. On peut donc traiter la liste retournée par la commande fetch ainsi :

for in_reply_to, _ in zip(data[0::3], data[1::3]):

    self._mark_thread_as_read(in_reply_to[1].decode()[14:-5])

Ne reste plus qu'à écrire la méthode _mark_thread_as_read.

Phase 5 : marquer un fil de discussion comme lu

Nous appelons cette méthode _mark_thread_as_read sur la valeur du champ « In-Reply-To » que nous appellerons « l'identifiant du fil » par commodité. Les messages composant le fil à marquer comme lu ont l'une des deux propriétés suivantes :

- leur champ « Message-Id » est égal à l'identifiant du fil (c'est le cas du premier message);

- leur champ « In-Reply-To » est égal à l'identifiant du fil (c'est le cas de toutes les réponses).

Nous devons donc tout d'abord chercher tous ces messages, ce que nous avons appris à faire plus tôt :

def _mark_thread_as_read(self, thread_id):

    ok, uids = self.conn.uid(

                'search', None,

                'OR HEADER In-Reply-To %s HEADER Message-Id %s' % (

                    thread_id, thread_id))

On remarque ici l'utilisation du critère OR afin d'exprimer notre critère de recherche.

Il nous suffit finalement d'utiliser la commande store afin d'ajouter le drapeau SEEN aux messages pour les marquer comme lu :

self.conn.uid('store', b','.join(uids), '+FLAGS', '\SEEN')

Le résultat

Il suffit de modifier les variables SERVER, LOGIN et MAILBOXES pour pouvoir utiliser le script. La lecture de la RFC 3501 ainsi que la documentation du module imaplib (https://docs.python.org/3.5/library/imaplib.html) devraient vous permettre d'appliquer des opérations dont il n'a pas été question dans cet article (suppression de messages, archivage, etc.) afin d'adapter ce programme à vos besoins.


Sur le même sujet

Erlang, programmation distribuée et modèle acteur

Magazine
Marque
GNU/Linux Magazine
Numéro
237
|
Mois de parution
mai 2020
|
Domaines
Résumé

Quel est le point commun entre RabbitMQ, ejabberd, CouchDB, WhatsApp et Heroku ? Ces outils et services ont la particularité d’utiliser le même langage de programmation : Erlang. Ce dernier, encore trop peu connu du grand public, a pourtant réussi à maintes reprises à faire parler de lui. Il offre une approche nouvelle dans le monde du développement, où le paradigme orienté objet domine largement le marché, en offrant une implémentation très haut niveau du modèle acteur, facilitant ainsi la mise en place ainsi que l’utilisation de systèmes complexes et distribués.

Programmation réactive avec Quarkus

Magazine
Marque
GNU/Linux Magazine
Numéro
237
|
Mois de parution
mai 2020
|
Domaines
Résumé

L’innovant projet Quarkus a déjà été évoqué dans plusieurs précédents articles depuis sa sortie en mai 2019. Ces publications ont détaillé à quel point il est un excellent cadre d’exécution, très performant et très adapté à la réalisation de microservices HTTP. Néanmoins, ces différents articles n’ont pas, pour le moment, abordé le thème de la programmation « réactive ». Or, comme nous allons le voir aujourd’hui, la programmation « réactive » est en fait au cœur de Quarkus !

Faites du multithreading avec OpenMP

Magazine
Marque
GNU/Linux Magazine
Numéro
237
|
Mois de parution
mai 2020
|
Domaines
Résumé

Vous vous êtes souvent demandé s’il était possible de paralléliser certaines tâches de votre application afin de la rendre plus optimale en termes de temps ? Grâce à OpenMP, vous pourrez optimiser la vitesse d’exécution de vos programmes en parallélisant les tâches facilement.

SpaceVim, une distribution de Vim prête à l'emploi

Magazine
Marque
GNU/Linux Magazine
Numéro
236
|
Mois de parution
avril 2020
|
Domaines
Résumé

Sans aucun lien avec Space Invaders, SpaceVim (justement sans espace entre Space et Vim) vous propose une nouvelle façon de gérer les plug-ins et la configuration de votre éditeur favori. Penchons-nous sur cette solution, pour savoir si le grand ménage de notre .vimrc doit avoir lieu.

Par le même auteur

Empaquetez (facilement) votre projet avec upt

Magazine
Marque
GNU/Linux Magazine
Numéro
222
|
Mois de parution
janvier 2019
|
Domaines
Résumé
Les logiciels que nous utilisons sur nos distributions GNU/Linux et *BSD proviennent généralement des dépôts associés à ces dernières. Ils y sont présents, car les mainteneurs de notre OS préféré les ont empaquetés : cela nous évite de devoir recompiler les sources nous-mêmes, de résoudre les problèmes de dépendances ou de parfaire l'intégration avec le reste de notre système. Nous verrons dans cet article comment les empaqueteurs ont réussi à automatiser une partie de leur travail. Nous proposerons ensuite une solution logicielle permettant à toutes les distributions d'empaqueter facilement le code disponible sur des plateformes telles que PyPI, RubyGems ou CPAN.

Faut s’démener au FOSDEM !

Magazine
Marque
GNU/Linux Magazine
Numéro
213
|
Mois de parution
mars 2018
|
Résumé
Le FOSDEM (Free and OpenSource Developers European Meeting) est tellement incontournable qu’une part non négligeable des auteurs de GLMF s’y rend chaque année. De nombreuses mains et points de vue ont donc participé à ce compte-rendu, pour vous faire part du foisonnement de ce week-end intense.

Étendez Pandoc avec Lua

Magazine
Marque
GNU/Linux Magazine
Numéro
199
|
Mois de parution
décembre 2016
|
Domaines
Résumé
Il est parfois nécessaire de convertir un fichier d'un langage de balisage vers un autre : de Markdown vers du HTML, d'Org-mode vers LaTeX, etc. Pandoc est un outil permettant ce type de conversion, et il est capable de gérer un nombre impressionnant de formats différents. Que faire si l'on souhaite utiliser un format ésotérique inconnu de Pandoc ? Il est possible de l'étendre en Lua !

Filtrez vos courriels avec Python

Magazine
Marque
GNU/Linux Magazine
Numéro
195
|
Mois de parution
juillet 2016
|
Domaines
Résumé
Vous utilisez sans doute IMAP (Internet Message Access Protocol) pour lire votre courrier. N'avez -vous jamais eu envie d'écrire un script utilisant ce protocole afin d'effectuer des opérations courantes (marquer un fil de discussion comme lu, le déplacer, etc.) automatiquement ? C'est possible grâce à Python et son module imaplib, qui fait partie de la bibliothèque standard.