Des soucis à la chaîne

Magazine
Marque
MISC
HS n°
Numéro
30
Mois de parution
octobre 2024
Spécialité(s)


Résumé

L’histoire, ou plutôt l’Histoire, est une coquine. Et quand Dennis Ritchie et Ken Thompson inventent le langage C en 1972, ils prennent une décision anodine, une micro-optimisation qui fait gagner quelques octets, mais qui aura un impact important sur la sécurité de nombreux systèmes : en C, les chaînes de caractères sont terminées par un octet positionné à zéro.


Body

À la différence de memcpy qui prend en paramètre la quantité de mémoire à copier (dans l’hypothèse que le buffer de sortie soit assez grand), la fonction strcpy copiera successivement les octets du buffer d’entrée vers le buffer de sortie jusqu’à trouver une valeur sentinelle, le fameux ‘\0’. La porte ouverte à de nombreuses exploitations et à une API qui a bien évolué au fil du temps.

1. strcpy

La page de manuel de strcpy(3) insiste lourdement sur ce sujet : c’est à la charge du développeur d’allouer un buffer assez grand pour contenir la chaîne copiée. Si ce n’est pas le cas, l’écriture a lieu sur les octets qui suivent, typiquement si le buffer de destination a été alloué sur la pile, cela permet d’écraser les valeurs qui suivent, et potentiellement de changer le chemin d’exécution pris par le programme. Si l’entrée est contrôlée par l’utilisateur (lue sur le réseau, dans les arguments, sur l’entrée standard, etc.), c’est la porte ouverte à une attaque de type out-of-bound write (CWE-787), qui fait top 1 au classement des vulnérabilités de code 2023 tenu par https://cwe.mitre.org. Et on parle là d’une fonction validée par le standard C89 et POSIX.1-2001, donc qui est là pour rester et qui est au fondement de ce château de cartes qu’on appelle l’informatique.

Bien sûr, des évolutions ont été proposées, alors parlons un peu de strncpy.

2. strncpy

Estampillée POSIX.1-2008, strncpy ajoute un troisième argument à strcpy, argument qui désigne le nombre de caractères qui seront écrits dans le buffer de sortie. Si la taille de la chaîne d’entrée est plus petite que cette valeur, le buffer est rempli d’octets de bourrage positionnés à zéro, ce qui permet d’éviter une fuite d’information : les valeurs précédemment stockées dans ce buffer sont toutes écrasées. Par contre si la taille de la chaîne d’entrée est plus grande que la valeur du troisième argument, une simple troncation est effectuée et aucun octet de terminaison n’est ajouté. Seul le test explicite du dernier octet écrit permet de savoir si une troncation a eu lieu.

Ce comportement permet d’éviter des écritures hors du buffer en rendant la taille de ce dernier explicite, mais la chaîne résultante peut ne plus être valide (le standard fait d’ailleurs la distinction entre une string et une character sequence). Une lecture subséquente de ce buffer en faisant l’hypothèse qu’il possède un octet de terminaison résultera en… une lecture hors des bornes, soit un out-of-bound read (CWE 125), qui ne fait que top 7 au classement des vulnérabilités de code 2023. Maigre progrès.

Bien sûr, des évolutions ont été proposées, alors parlons un peu de strlcpy.

3. strlcpy

strlcpy est une fonction spécifique à OpenBSD apparue avec OpenBSD 2.4, dans le but de corriger les erreurs de conception associées à strncpy. Elle a la même signature que cette dernière, mais garantit l’écriture d’un octet à zéro, même en cas de troncation. Et contrairement à strncpy qui renvoie un pointeur vers l’argument de destination (pour faciliter le chaînage avec d’autres fonctions), strlcpy renvoie le nombre d’octets écrits, en excluant l’octet nul, ce qui permet de détecter facilement la troncation.

On notera avec amusement cette phrase issue de la page de manuel de strlcpy, après un exemple d’optimisation du chaînage d’un strlcpy avec un strlcat :

However, one may question the validity of such optimizations, as they defeat the whole purpose of strlcpy() and strlcat(). As a matter of fact, the first version of this manual page got it wrong.

Reste que strlcpy est spécifique à OpenBSD. Bien sûr, des évolutions ont été proposées, alors parlons un peu de strcpy_s. Mais pas avant un petit détour par stpecpy.

4. stpecpy

Vous n’avez jamais entendu parler de cette fonction ? Normal, elle n’existe pas. Et pourtant, elle a sa page de manuel, qui nous apprend que (traduction libre) « specpy(3) est la plus efficace des fonctions de copie de chaîne qui effectue une troncation ». Mais aussi que « cette fonction n’est fournie dans aucune bibliothèque, lisez la section des exemples pour en trouver une implémentation de référence ». On va de surprise en surprise ! Petite friandise pour le lecteur :

stpecpy(char *dst, char end[0], const char *restrict src)
{
    char *p;
    if (dst == NULL)
        return NULL;
    if (dst == end)
        return end;
    p = memccpy(dst, src, '\0', end - dst);
    if (p != NULL)
        return p - 1;
    /* truncation detected */
    end[-1] = '\0';
    return end;
}

5. strcpy_s

La fonction strcpy_s existe depuis un certain temps sous Windows, en tant qu’extension spécifique. Mais elle fait aussi partie du standard C11.

La version Windows a le même comportement que strlcpy, sauf qu’elle renvoie un code d’erreur si le buffer source ou le buffer de destination sont des pointeurs nuls, si la taille est de zéro, ou si une troncation devait avoir lieu (auquel cas le pointeur de destination est positionné à la chaîne vide). Le comportement est spécifiquement indéfini si le buffer d’entrée et de sortie se chevauchent, ce qui était implicite pour toutes les fonctions précédentes de par l’usage du mot clef restrict.

La version C11 reprend et normalise le comportement de la version Windows. Elle n’est disponible que si la macro __STDC_LIB_EXT1__ est définie et que la macro __STDC_WANT_LIB_EXT1__ est positionnée à 1 par l’utilisateur avant d’inclure <string.h>.

Conclusion

D’après [1], le choix d’utiliser une valeur sentinelle pour encoder la taille d’une chaîne de caractères plutôt que d’utiliser des Pascal string (c’est-à-dire une structure contenant la taille de la chaîne suivie de chacun des octets de la chaîne), serait « l’erreur d’un octet la plus coûteuse de l’histoire » (de l’informatique).

Pour ma part, je ne peux que constater avec émerveillement à quel point la copie de chaîne a traversé les standards, faisant d’elle un témoin des différentes étapes de raffinement d’une API, ce qui nous permet au minimum de conclure que, oui, concevoir une bonne API est une activité complexe qui demande du savoir-faire et de l’expérience, expérience qu’il est difficile d’avoir quand on conçoit un des premiers langages de haut niveau pour des machines qui n’ont pas exactement les mêmes caractéristiques que l’ordinateur portable utilisé pour rédiger cet article.

Et pour les curieux, je ne peux que conseiller au lecteur d’invoquer :

man 7 string_copying

Référence

[1] Kamp, Poul-Henning , « The most expensive One-Byte mistake », ACM Queue 9, 25 juillet 2011



Article rédigé par

Par le(s) même(s) auteur(s)

Édito

Magazine
Marque
MISC
HS n°
Numéro
30
Mois de parution
octobre 2024
Résumé

En regardant la liste des 25 failles les plus dangereuses éditées par MITRE chaque année, on ne peut qu’être frappé par la présence (ou la persistance) de thèmes bien connus : écriture illégale dans une zone mémoire, utilisation d’une zone mémoire désallouée, lecture illégale d’une zone mémoire, déréférencement de pointeur NULL, dépassement de la capacité d’un entier… Autant de sujets qui sont pourtant abordés dans les premiers chapitres de tout bouquin traitant de la sécurité logicielle. Ce qui n’en fait pas pour autant des sujets faciles dès lors que les considérations de base de code existant et de performances rentrent en compte. C’est compliqué l’optimisation multicritère !

Les derniers articles Premiums

Les derniers articles Premium

Bun.js : l’alternative à Node.js pour un développement plus rapide

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Dans l’univers du développement backend, Node.js domine depuis plus de dix ans. Mais un nouveau concurrent fait de plus en plus parler de lui, il s’agit de Bun.js. Ce runtime se distingue par ses performances améliorées, sa grande simplicité et une expérience développeur repensée. Peut-il rivaliser avec Node.js et changer les standards du développement JavaScript ?

PostgreSQL au centre de votre SI avec PostgREST

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Dans un système d’information, il devient de plus en plus important d’avoir la possibilité d’échanger des données entre applications. Ce passage au stade de l’interopérabilité est généralement confié à des services web autorisant la mise en œuvre d’un couplage faible entre composants. C’est justement ce que permet de faire PostgREST pour les bases de données PostgreSQL.

La place de l’Intelligence Artificielle dans les entreprises

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

L’intelligence artificielle est en train de redéfinir le paysage professionnel. De l’automatisation des tâches répétitives à la cybersécurité, en passant par l’analyse des données, l’IA s’immisce dans tous les aspects de l’entreprise moderne. Toutefois, cette révolution technologique soulève des questions éthiques et sociétales, notamment sur l’avenir des emplois. Cet article se penche sur l’évolution de l’IA, ses applications variées, et les enjeux qu’elle engendre dans le monde du travail.

Petit guide d’outils open source pour le télétravail

Magazine
Marque
Contenu Premium
Spécialité(s)
Résumé

Ah le Covid ! Si en cette période de nombreux cas resurgissent, ce n’est rien comparé aux vagues que nous avons connues en 2020 et 2021. Ce fléau a contraint une large partie de la population à faire ce que tout le monde connaît sous le nom de télétravail. Nous avons dû changer nos habitudes et avons dû apprendre à utiliser de nombreux outils collaboratifs, de visioconférence, etc., dont tout le monde n’était pas habitué. Dans cet article, nous passons en revue quelques outils open source utiles pour le travail à la maison. En effet, pour les adeptes du costume en haut et du pyjama en bas, la communauté open source s’est démenée pour proposer des alternatives aux outils propriétaires et payants.

Les listes de lecture

11 article(s) - ajoutée le 01/07/2020
Clé de voûte d'une infrastructure Windows, Active Directory est l'une des cibles les plus appréciées des attaquants. Les articles regroupés dans cette liste vous permettront de découvrir l'état de la menace, les attaques et, bien sûr, les contre-mesures.
8 article(s) - ajoutée le 13/10/2020
Découvrez les méthodologies d'analyse de la sécurité des terminaux mobiles au travers d'exemples concrets sur Android et iOS.
10 article(s) - ajoutée le 13/10/2020
Vous retrouverez ici un ensemble d'articles sur les usages contemporains de la cryptographie (whitebox, courbes elliptiques, embarqué, post-quantique), qu'il s'agisse de rechercher des vulnérabilités ou simplement comprendre les fondamentaux du domaine.
Voir les 70 listes de lecture

Abonnez-vous maintenant

et profitez de tous les contenus en illimité

Je découvre les offres

Déjà abonné ? Connectez-vous