Les codes fantastiques : utilisation d’un bytecode Python invalide

Magazine
Marque
GNU/Linux Magazine
Numéro
261
Mois de parution
janvier 2023
Spécialité(s)


Résumé

Continuons cette série sur les codes fantastiques avec un exemple tiré d’une histoire vécue : retrouver les sources d’un plug-in Python obfusqué...


Body

En Python, un fichier avec l’extension .pyc représente un fichier de bytecode, spécifique à une version de Python. Tout code Python passe par cet état (au moins en mémoire) avant d’être interprété. Fournir un fichier dans un tel format au lieu d’un fichier source n’apporte guère de protection en termes d’obfuscation de code : il est plutôt facile de régénérer les sources à partir d’un fichier de bytecode, en utilisant un outil comme uncompyle6, tout juste perd-on les commentaires...

La créativité humaine n’ayant pas de limite, je vous propose cette protection anti-reverse découverte en analysant un plug-in Python qui avait été volontairement obfusqué. Commençons avec un code des plus simple en apparence :

# hello.py
try: print("bye")
except Exception: print("hello")

Son exécution affiche sans surprise bye dans la console. On peut forcer sa compilation en bytecode :

python -m py_compile hello.py

Et inspecter le bytecode associé à l’aide du script suivant :

import dis, marshal
with open('__pycache__/hello.cpython-36.pyc', 'rb') as f:
    f.seek(12) ; dis.dis(marshal.load(f))

Sans rentrer dans les détails du format pyc, disons qu’on saute les 12 premiers octets d’en-tête pour atterrir sur le code Python qu’on charge avec marshal et désassemble avec dis, ce qui nous donne (extrait) :

  1           0 SETUP_EXCEPT            12 (to 14)
 
  2           2 LOAD_NAME                0 (print)
              4 LOAD_CONST               0 ('bye')
              6 CALL_FUNCTION            1
              8 POP_TOP
             10 POP_BLOCK
             12 JUMP_FORWARD            28 (to 42)
 
  3     >>   14 DUP_TOP

Maintenant, remplaçons l’opcode associé à LOAD_CONST par un 0x10, c’est-à-dire changeons l’opcode associé pour un opcode qui n’aurait pas de sens ici, par exemple BINARY_MATRIX_MULTIPLY, que l’on sauve dans hello.pyc :

python -c 'c = open("__pycache__/hello.cpython-36.pyc", "rb").read(); open("hello.pyc", "wb").write(c[:42] + b"\x10\x00" + c[44:])'

Quand on exécute hello.pyc, malgré la séquence invalide, aucune erreur ne ressort, et le programme affiche hello dans la console.

Que s’est-il passé ? BINARY_MATRIX_MULTIPLY attend deux arguments sur la pile, il a pris ce qu’il y trouvait qui n’a pas de sens (dans ce cas, une string et une fonction, pas le top pour un produit matriciel), il lève alors une exception, que l’on attrape. Et uncompyle6 ne parviendra pas à désassembler le bytecode, échouant sur un joli :

Parse error at or near `BINARY_MATRIX_MULTIPLY' instruction at offset 4


Article rédigé par

Par le(s) même(s) auteur(s)

Crévindiou, c’est pas du bon C d’chez nous ça, cé du C deu’l ville !

Magazine
Marque
GNU/Linux Magazine
Numéro
267
Mois de parution
janvier 2024
Spécialité(s)
Résumé

IANAL (I Am Not A Linguist), mais quand j’entends du québécois, je ne comprends pas tout, mais je comprends. Mais qu’en est-il des dialectes du langage C ? Car oui, le langage C a des dialectes, et nous allons voyager un peu à travers l’un d’entre eux, le dialecte GNU, supporté principalement par GCC, mais aussi, en partie, par Clang.

Les derniers articles Premiums

Les derniers articles Premium

Bénéficiez de statistiques de fréquentations web légères et respectueuses avec Plausible Analytics

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Pour être visible sur le Web, un site est indispensable, cela va de soi. Mais il est impossible d’en évaluer le succès, ni celui de ses améliorations, sans établir de statistiques de fréquentation : combien de visiteurs ? Combien de pages consultées ? Quel temps passé ? Comment savoir si le nouveau design plaît réellement ? Autant de questions auxquelles Plausible se propose de répondre.

Quarkus : applications Java pour conteneurs

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Initié par Red Hat, il y a quelques années le projet Quarkus a pris son envol et en est désormais à sa troisième version majeure. Il propose un cadre d’exécution pour une application de Java radicalement différente, où son exécution ultra optimisée en fait un parfait candidat pour le déploiement sur des conteneurs tels que ceux de Docker ou Podman. Quarkus va même encore plus loin, en permettant de transformer l’application Java en un exécutable natif ! Voici une rapide introduction, par la pratique, à cet incroyable framework, qui nous offrira l’opportunité d’illustrer également sa facilité de prise en main.

Les listes de lecture

9 article(s) - ajoutée le 01/07/2020
Vous désirez apprendre le langage Python, mais ne savez pas trop par où commencer ? Cette liste de lecture vous permettra de faire vos premiers pas en découvrant l'écosystème de Python et en écrivant de petits scripts.
11 article(s) - ajoutée le 01/07/2020
La base de tout programme effectuant une tâche un tant soit peu complexe est un algorithme, une méthode permettant de manipuler des données pour obtenir un résultat attendu. Dans cette liste, vous pourrez découvrir quelques spécimens d'algorithmes.
10 article(s) - ajoutée le 01/07/2020
À quoi bon se targuer de posséder des pétaoctets de données si l'on est incapable d'analyser ces dernières ? Cette liste vous aidera à "faire parler" vos données.
Voir les 64 listes de lecture

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous