Filtrez vos courriels avec Python

GNU/Linux Magazine

n°

195

juillet 2016

Par

Roelandt Cyril

Code

Tag(s)

Python

mail

Vous utilisez sans doute IMAP (Internet Message Access Protocol) pour lire votre courrier. N'avez -vous jamais eu envie d'écrire un script utilisant ce protocole afin d'effectuer des opérations courantes (marquer un fil de discussion comme lu, le déplacer, etc.) automatiquement ? C'est possible grâce à Python et son module imaplib, qui fait partie de la bibliothèque standard.

L'objectif

Gerrit est une application Web qui permet aux développeurs de lire, commenter et valider (ou non) des patches proposés sur des projets utilisant le gestionnaire de versions Git. À chaque fois qu'un événement (nouveau commentaire, acceptation/rejet du patch, etc.) survient sur un patch donné, les développeurs le souhaitant reçoivent une notification par courriel. Cette fonctionnalité est très pratique, mais elle peut générer énormément de courriers.

Il convient donc de s'aider de filtres pour gérer ces notifications. La première étape consiste à ranger les courriers ainsi générés dans un dossier « Revue de code », mais ce n'est pas suffisant. En effet, il est assez frustrant de lire tout un fil de discussion concernant un patch pour se rendre compte, en arrivant au dernier message, qu'il a été accepté et poussé dans le dépôt Git. Il serait fort pratique que tout le fil soit automatiquement marqué comme lu.

Les filtres disponibles dans la plupart des clients de messagerie populaires offrent rarement la possibilité d'appliquer une action à tout un fil de discussion : ils travaillent en général sur un seul message. Écrivons donc un script Python afin de résoudre ce problème.

Les outils

- Python 3 : une version récente (>= 3.4);

- Une boîte aux lettres supportant IMAP;

- Un éditeur de texte.

Phase 1 : plan d'attaque

À chaque patch proposé sur Gerrit correspond un fil de discussion, au sein duquel tous les messages sont une réponse au premier. Lorsqu'un patch est accepté, le système d'intégration continue (ici, Jenkins) envoie un courrier contenant la phrase suivante : « Jenkins has submitted this change and it was merged ». Il est donc aisé de décomposer l'écriture de notre script en plusieurs phases :

- Chercher les messages non lus envoyés par Jenkins dans le corps desquels se trouve la phrase « Jenkins has submitted this change and it was merged »;

- Pour chacun de ces messages, récupérer la valeur du champ « In-Reply-To »;

- Chercher les messages ayant un champ « Message-Id » ou « In-Reply-To » contenant une de ces valeurs;

- Les marquer comme lus.

Le script final est disponible à l'adresse suivante : https://framagit.org/Steap/GLMF-articles/blob/master/python-imaplib/mail_filter.py. La classe MailFilter implémente toutes les opérations que nous venons de décrire. On notera que, par souci de lisibilité, la gestion des erreurs est assez insatisfaisante.

Phase 2 : connexion/déconnexion

La première chose à faire lorsque l'on souhaite travailler sur sa boîte aux lettres est de s'assurer que l'on peut s'y connecter. Les paramètres dépendent évidemment du service de messagerie utilisé, mais la connexion se fait toujours de la façon suivante :

# Ici, la configuration pour OpenMailBox.org

>>> import imaplib

>>> conn = imaplib.IMAP4_SSL('imap.openmailbox.org')

>>> conn.login('username@openmailbox.org', 'motdepasse')

('OK', [b'Logged in'])

C'est notamment ce que fait la méthode __init__ de notre classe MailFilter (il suffit de convertir les lignes ci-dessus en constructeur, donc __init__, de MailFilter)

Afin de se convaincre que la connexion a bien été établie, listons les boîtes disponibles :

>>> conn.list()

('OK', [b'(\\HasNoChildren \\UnMarked \\Trash) "/" Trash', b'(\\HasNoChildren \\UnMarked \\Junk) "/" Spam', b'(\\HasNoChildren \\UnMarked \\Sent) "/" Sent', b'(\\HasNoChildren \\UnMarked \\Drafts) "/" Drafts', b'(\\HasNoChildren) "/" INBOX'])

Finalement, il est possible de clore la connexion :

>>> conn.logout()

('BYE', [b'Logging out'])

Phase 3 : rechercher des courriers

La première étape de notre script consiste à chercher tous les messages de la boîte sélectionnée répondant aux trois critères suivants :

- non-lus;

- envoyés par Jenkins;

- contenant un motif particulier dans le corps.

Nous allons donc utiliser la commande search. Sa documentation, disponible à la section 6.4.4 de la RFC 3501 (https://tools.ietf.org/html/rfc3501), nous indique les clés à lui passer afin de filtrer les messages selon les trois conditions que nous venons de rappeler :

- UNSEEN pour ne récupérer que les messages non-lus;

- HEADER From "Jenkins" pour ne s'intéresser qu'à ceux envoyés par Jenkins;

- BODY "Jenkins has submitted this change and it was merged" pour filtrer selon le contenu du message.

La méthode _search_messages implémente cette recherche :

def _search_messages(self):

ok, uids = self.conn.uid(

'search', None,

'(UNSEEN HEADER From "Jenkins" '

'BODY "Jenkins has submitted this change and it was merged")')

La méthode uid prend en argument une commande (ici, search), les arguments de cette commande (aucun argument ici, nous passons donc None), et enfin les clés que nous évoquions précédemment. Elle retourne deux valeurs : la première devrait être égale à la chaîne de caractères OK, la deuxième est une liste d'uids identifiant de façon unique chacun des messages trouvés.

Pour être tout à fait précise, cette liste ne contient qu'un seul élément : une chaîne contenant tous les identifiants, séparés par des espaces. Il peut sembler opportun de faire retourner à _search_messages une liste plutôt qu'une telle chaîne :

# uids looks like [b'10 25 100 137']

return uids[0].split(b' ')

Phase 4 : récupérer les en-têtes

Il nous faut désormais récupérer la valeur du champ « In-Reply-To » pour chacun des messages trouvés, et ce grâce à la commande fetch du protocole IMAP. Elle prend en argument un ou plusieurs identifiants uniques de courriels (séparés par des virgules) et des macros spécifiées à la section 6.4.5 de la RFC. Regardons la méthode _fetch_messages :

def _fetch_messages(self, ids):

ok, data = self.conn.uid(

'fetch', b','.join(ids),

'BODY[HEADER.FIELDS (IN-REPLY-TO)]')

assert ok == 'OK'

return data

Nous demandons ici uniquement le champ « In-Reply-To ». Pour chaque message traité, nous recevons 2 éléments. Le premier est un tuple, contenant la réponse qui nous intéresse :

(b'8 (UID 81659 BODY[HEADER.FIELDS (IN-REPLY-TO)] {102}',

b'In-Reply-To: <gerrit.1460024962000.Ib58a9d0b9cc95a831981de0cc19456f0c6713dbb@review.openstack.org>\r\n\r\n')

En « nettoyant » la chaîne, on peut donc récupérer l'identifiant : « gerrit...openstack.org ».

Le second nous informe que les drapeaux du message ont été modifiés. En effet, utiliser BODY marque implicitement le message comme lu :

b' FLAGS (\\Seen))'

Cette partie ne nous intéresse pas particulièrement. On peut donc traiter la liste retournée par la commande fetch ainsi :

for in_reply_to, _ in zip(data[0::3], data[1::3]):

self._mark_thread_as_read(in_reply_to[1].decode()[14:-5])

Ne reste plus qu'à écrire la méthode _mark_thread_as_read.

Phase 5 : marquer un fil de discussion comme lu

Nous appelons cette méthode _mark_thread_as_read sur la valeur du champ « In-Reply-To » que nous appellerons « l'identifiant du fil » par commodité. Les messages composant le fil à marquer comme lu ont l'une des deux propriétés suivantes :

- leur champ « Message-Id » est égal à l'identifiant du fil (c'est le cas du premier message);

- leur champ « In-Reply-To » est égal à l'identifiant du fil (c'est le cas de toutes les réponses).

Nous devons donc tout d'abord chercher tous ces messages, ce que nous avons appris à faire plus tôt :

def _mark_thread_as_read(self, thread_id):

ok, uids = self.conn.uid(

'search', None,

'OR HEADER In-Reply-To %s HEADER Message-Id %s' % (

thread_id, thread_id))

On remarque ici l'utilisation du critère OR afin d'exprimer notre critère de recherche.

Il nous suffit finalement d'utiliser la commande store afin d'ajouter le drapeau SEEN aux messages pour les marquer comme lu :

self.conn.uid('store', b','.join(uids), '+FLAGS', '\SEEN')

Le résultat

Il suffit de modifier les variables SERVER, LOGIN et MAILBOXES pour pouvoir utiliser le script. La lecture de la RFC 3501 ainsi que la documentation du module imaplib (https://docs.python.org/3.5/library/imaplib.html) devraient vous permettre d'appliquer des opérations dont il n'a pas été question dans cet article (suppression de messages, archivage, etc.) afin d'adapter ce programme à vos besoins.

Recherche

L'objectif

Les outils

Phase 1 : plan d'attaque

Phase 2 : connexion/déconnexion

Phase 3 : rechercher des courriers

Phase 4 : récupérer les en-têtes

Phase 5 : marquer un fil de discussion comme lu

Le résultat

Article rédigé par

Par le(s) même(s) auteur(s)

Faut s’démener au FOSDEM !

Créez un système de migration des rapports de bug de GitHub à GitLab

Scapy, le couteau suisse Python pour le réseau

NouveauLes derniers articles Premiums

Nouveau Les derniers articles Premium

Bun.js : l’alternative à Node.js pour un développement plus rapide

PostgreSQL au centre de votre SI avec PostgREST

La place de l’Intelligence Artificielle dans les entreprises

Petit guide d’outils open source pour le télétravail

Les listes de lecture

Abonnez-vous maintenant

Navigation secondaire

Filtrez vos courriels avec Python

L'objectif

Les outils

Phase 1 : plan d'attaque

Phase 2 : connexion/déconnexion

Phase 3 : rechercher des courriers

Phase 4 : récupérer les en-têtes

Phase 5 : marquer un fil de discussion comme lu

Le résultat

Article rédigé par

Par le(s) même(s) auteur(s)

Faut s’démener au FOSDEM !

Créez un système de migration des rapports de bug de GitHub à GitLab

Scapy, le couteau suisse Python pour le réseau

NouveauLes derniers articles Premiums

Nouveau Les derniers articles Premium

Bun.js : l’alternative à Node.js pour un développement plus rapide

PostgreSQL au centre de votre SI avec PostgREST

La place de l’Intelligence Artificielle dans les entreprises

Petit guide d’outils open source pour le télétravail

Les listes de lecture

Abonnez-vous maintenant