Filtrez vos courriels avec Python

Magazine
Marque
GNU/Linux Magazine
Numéro
195
Mois de parution
juillet 2016
Spécialité(s)


Résumé
Vous utilisez sans doute IMAP (Internet Message Access Protocol) pour lire votre courrier. N'avez -vous jamais eu envie d'écrire un script utilisant ce protocole afin d'effectuer des opérations courantes (marquer un fil de discussion comme lu, le déplacer, etc.) automatiquement ? C'est possible grâce à Python et son module imaplib, qui fait partie de la bibliothèque standard.

Body


L'objectif

Gerrit est une application Web qui permet aux développeurs de lire, commenter et valider (ou non) des patches proposés sur des projets utilisant le gestionnaire de versions Git. À chaque fois qu'un événement (nouveau commentaire, acceptation/rejet du patch, etc.) survient sur un patch donné, les développeurs le souhaitant reçoivent une notification par courriel. Cette fonctionnalité est très pratique, mais elle peut générer énormément de courriers.

Il convient donc de s'aider de filtres pour gérer ces notifications. La première étape consiste à ranger les courriers ainsi générés dans un dossier « Revue de code », mais ce n'est pas suffisant. En effet, il est assez frustrant de lire tout un fil de discussion concernant un patch pour se rendre compte, en arrivant au dernier message, qu'il a été accepté et poussé dans le dépôt Git. Il serait fort pratique que tout le fil soit automatiquement marqué comme lu.

Les filtres disponibles dans la plupart des clients de messagerie populaires offrent rarement la possibilité d'appliquer une action à tout un fil de discussion : ils travaillent en général sur un seul message. Écrivons donc un script Python afin de résoudre ce problème.

Les outils

- Python 3 : une version récente (>= 3.4);

- Une boîte aux lettres supportant IMAP;

- Un éditeur de texte.

Phase 1 : plan d'attaque

À chaque patch proposé sur Gerrit correspond un fil de discussion, au sein duquel tous les messages sont une réponse au premier. Lorsqu'un patch est accepté, le système d'intégration continue (ici, Jenkins) envoie un courrier contenant la phrase suivante : « Jenkins has submitted this change and it was merged ». Il est donc aisé de décomposer l'écriture de notre script en plusieurs phases :

- Chercher les messages non lus envoyés par Jenkins dans le corps desquels se trouve la phrase « Jenkins has submitted this change and it was merged »;

- Pour chacun de ces messages, récupérer la valeur du champ « In-Reply-To »;

- Chercher les messages ayant un champ « Message-Id » ou « In-Reply-To » contenant une de ces valeurs;

- Les marquer comme lus.

Le script final est disponible à l'adresse suivante : https://framagit.org/Steap/GLMF-articles/blob/master/python-imaplib/mail_filter.py. La classe MailFilter implémente toutes les opérations que nous venons de décrire. On notera que, par souci de lisibilité, la gestion des erreurs est assez insatisfaisante.

Phase 2 : connexion/déconnexion

La première chose à faire lorsque l'on souhaite travailler sur sa boîte aux lettres est de s'assurer que l'on peut s'y connecter. Les paramètres dépendent évidemment du service de messagerie utilisé, mais la connexion se fait toujours de la façon suivante :

# Ici, la configuration pour OpenMailBox.org

>>> import imaplib

>>> conn = imaplib.IMAP4_SSL('imap.openmailbox.org')

>>> conn.login('username@openmailbox.org', 'motdepasse')

('OK', [b'Logged in'])

C'est notamment ce que fait la méthode __init__ de notre classe MailFilter (il suffit de convertir les lignes ci-dessus en constructeur, donc __init__, de MailFilter)

Afin de se convaincre que la connexion a bien été établie, listons les boîtes disponibles :

>>> conn.list()

('OK', [b'(\\HasNoChildren \\UnMarked \\Trash) "/" Trash', b'(\\HasNoChildren \\UnMarked \\Junk) "/" Spam', b'(\\HasNoChildren \\UnMarked \\Sent) "/" Sent', b'(\\HasNoChildren \\UnMarked \\Drafts) "/" Drafts', b'(\\HasNoChildren) "/" INBOX'])

Finalement, il est possible de clore la connexion :

>>> conn.logout()

('BYE', [b'Logging out'])

Phase 3 : rechercher des courriers

La première étape de notre script consiste à chercher tous les messages de la boîte sélectionnée répondant aux trois critères suivants :

- non-lus;

- envoyés par Jenkins;

- contenant un motif particulier dans le corps.

Nous allons donc utiliser la commande search. Sa documentation, disponible à la section 6.4.4 de la RFC 3501 (https://tools.ietf.org/html/rfc3501), nous indique les clés à lui passer afin de filtrer les messages selon les trois conditions que nous venons de rappeler :

- UNSEEN pour ne récupérer que les messages non-lus;

- HEADER From "Jenkins" pour ne s'intéresser qu'à ceux envoyés par Jenkins;

- BODY "Jenkins has submitted this change and it was merged" pour filtrer selon le contenu du message.

La méthode _search_messages implémente cette recherche :

def _search_messages(self):

    ok, uids = self.conn.uid(

                'search', None,

                '(UNSEEN HEADER From "Jenkins" '

                'BODY "Jenkins has submitted this change and it was merged")')

La méthode uid prend en argument une commande (ici, search), les arguments de cette commande (aucun argument ici, nous passons donc None), et enfin les clés que nous évoquions précédemment. Elle retourne deux valeurs : la première devrait être égale à la chaîne de caractères OK, la deuxième est une liste d'uids identifiant de façon unique chacun des messages trouvés.

Pour être tout à fait précise, cette liste ne contient qu'un seul élément : une chaîne contenant tous les identifiants, séparés par des espaces. Il peut sembler opportun de faire retourner à _search_messages une liste plutôt qu'une telle chaîne :

# uids looks like [b'10 25 100 137']

return uids[0].split(b' ')

Phase 4 : récupérer les en-têtes

Il nous faut désormais récupérer la valeur du champ « In-Reply-To » pour chacun des messages trouvés, et ce grâce à la commande fetch du protocole IMAP. Elle prend en argument un ou plusieurs identifiants uniques de courriels (séparés par des virgules) et des macros spécifiées à la section 6.4.5 de la RFC. Regardons la méthode _fetch_messages :

def _fetch_messages(self, ids):

    ok, data = self.conn.uid(

                'fetch', b','.join(ids),

                'BODY[HEADER.FIELDS (IN-REPLY-TO)]')

    assert ok == 'OK'

    return data

Nous demandons ici uniquement le champ « In-Reply-To ». Pour chaque message traité, nous recevons 2 éléments. Le premier est un tuple, contenant la réponse qui nous intéresse :

(b'8 (UID 81659 BODY[HEADER.FIELDS (IN-REPLY-TO)] {102}',

b'In-Reply-To: <gerrit.1460024962000.Ib58a9d0b9cc95a831981de0cc19456f0c6713dbb@review.openstack.org>\r\n\r\n')

En « nettoyant » la chaîne, on peut donc récupérer l'identifiant : « gerrit...openstack.org ».

Le second nous informe que les drapeaux du message ont été modifiés. En effet, utiliser BODY marque implicitement le message comme lu :

b' FLAGS (\\Seen))'

Cette partie ne nous intéresse pas particulièrement. On peut donc traiter la liste retournée par la commande fetch ainsi :

for in_reply_to, _ in zip(data[0::3], data[1::3]):

    self._mark_thread_as_read(in_reply_to[1].decode()[14:-5])

Ne reste plus qu'à écrire la méthode _mark_thread_as_read.

Phase 5 : marquer un fil de discussion comme lu

Nous appelons cette méthode _mark_thread_as_read sur la valeur du champ « In-Reply-To » que nous appellerons « l'identifiant du fil » par commodité. Les messages composant le fil à marquer comme lu ont l'une des deux propriétés suivantes :

- leur champ « Message-Id » est égal à l'identifiant du fil (c'est le cas du premier message);

- leur champ « In-Reply-To » est égal à l'identifiant du fil (c'est le cas de toutes les réponses).

Nous devons donc tout d'abord chercher tous ces messages, ce que nous avons appris à faire plus tôt :

def _mark_thread_as_read(self, thread_id):

    ok, uids = self.conn.uid(

                'search', None,

                'OR HEADER In-Reply-To %s HEADER Message-Id %s' % (

                    thread_id, thread_id))

On remarque ici l'utilisation du critère OR afin d'exprimer notre critère de recherche.

Il nous suffit finalement d'utiliser la commande store afin d'ajouter le drapeau SEEN aux messages pour les marquer comme lu :

self.conn.uid('store', b','.join(uids), '+FLAGS', '\SEEN')

Le résultat

Il suffit de modifier les variables SERVER, LOGIN et MAILBOXES pour pouvoir utiliser le script. La lecture de la RFC 3501 ainsi que la documentation du module imaplib (https://docs.python.org/3.5/library/imaplib.html) devraient vous permettre d'appliquer des opérations dont il n'a pas été question dans cet article (suppression de messages, archivage, etc.) afin d'adapter ce programme à vos besoins.




Article rédigé par

Par le(s) même(s) auteur(s)

Faut s’démener au FOSDEM !

Magazine
Marque
GNU/Linux Magazine
Numéro
213
Mois de parution
mars 2018
Résumé
Le FOSDEM (Free and OpenSource Developers European Meeting) est tellement incontournable qu’une part non négligeable des auteurs de GLMF s’y rend chaque année. De nombreuses mains et points de vue ont donc participé à ce compte-rendu, pour vous faire part du foisonnement de ce week-end intense.

Les derniers articles Premiums

Les derniers articles Premium

Cryptographie : débuter par la pratique grâce à picoCTF

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

L’apprentissage de la cryptographie n’est pas toujours évident lorsqu’on souhaite le faire par la pratique. Lorsque l’on débute, il existe cependant des challenges accessibles qui permettent de découvrir ce monde passionnant sans avoir de connaissances mathématiques approfondies en la matière. C’est le cas de picoCTF, qui propose une série d’épreuves en cryptographie avec une difficulté progressive et à destination des débutants !

Game & Watch : utilisons judicieusement la mémoire

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Au terme de l'article précédent [1] concernant la transformation de la console Nintendo Game & Watch en plateforme de développement, nous nous sommes heurtés à un problème : les 128 Ko de flash intégrés au microcontrôleur STM32 sont une ressource précieuse, car en quantité réduite. Mais heureusement pour nous, le STM32H7B0 dispose d'une mémoire vive de taille conséquente (~ 1,2 Mo) et se trouve être connecté à une flash externe QSPI offrant autant d'espace. Pour pouvoir développer des codes plus étoffés, nous devons apprendre à utiliser ces deux ressources.

Raspberry Pi Pico : PIO, DMA et mémoire flash

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Le microcontrôleur RP2040 équipant la Pico est une petite merveille et malgré l'absence de connectivité wifi ou Bluetooth, l'étendue des fonctionnalités intégrées reste très impressionnante. Nous avons abordé le sujet du sous-système PIO dans un précédent article [1], mais celui-ci n'était qu'une découverte de la fonctionnalité. Il est temps à présent de pousser plus loin nos expérimentations en mêlant plusieurs ressources à notre disposition : PIO, DMA et accès à la flash QSPI.

Les listes de lecture

9 article(s) - ajoutée le 01/07/2020
Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.
11 article(s) - ajoutée le 01/07/2020
La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.
10 article(s) - ajoutée le 01/07/2020
À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.
Voir les 53 listes de lecture

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous