Attaques ciblées : la visualisation analytique comme outil forensics et d'investigation

MISC

n°

mai 2014

Par

La visualisation analytique est une technologie qui vise à combiner des algorithmes de fouille de données et des techniques de visualisation. Cet article présente l'application de cette nouvelle technologie dans l'identification et l'investigation de campagnes d'attaques ciblées telles que APT1 et Elderwood. Nous démontrons en particulier son utilisation comme outil d'aide à l'analyse forensics « post-mortem » des tactiques, techniques, et procédures (TTP's) utilisées par les cybercriminels.

1. Introduction

Depuis 2009 avec la découverte de Ghostnet puis Stuxnet et Hydraq, une nouvelle ère de cyberattaques semble prendre forme, voire même se généraliser : celle des attaques ciblées. Les attaques ciblées se différencient des autres formes d'attaques plus communes — telles que le spam, les botnets, le phishing ou les virus traditionnels — par le fait qu'elles sont exécutées par des assaillants plus déterminés, patients, possédant les ressources nécessaires pour développer des malwares et des attaques en général plus sophistiquées, et ayant le temps et la motivation de rechercher et d'analyser leurs cibles. Il est généralement admis que ces attaquants puissent bénéficier parfois de l'appui d'organisations gouvernementales ou de certains États désireux d'obtenir des informations stratégiques sur leurs pays voisins ou leurs concurrents directs.

Dans la plupart des cas, les auteurs d'attaques ciblées ne sont pas directement motivés par un profit financier immédiat, mais bien par le vol d'informations sensibles, de secrets de fabrication ou de propriété intellectuelle. Durant ces dernières années, on a pu ainsi observer un nombre croissant de campagnes de cyberespionnage mises à jour par des sociétés spécialisées en sécurité informatique. À titre d'exemple, on pourrait d'abord citer Hydraq (aussi connu sous le nom de « Opération Aurora »), une importante cyberattaque qui visa en 2010 une trentaine de grandes entreprises, principalement américaines, dont Google en fut entre autres l'une des victimes. En 2011, une série de vagues de cyberattaques appelées « Nitro » visèrent principalement les industries des secteurs énergétique et pétrolifère. En 2012, on découvrit également le projet Elderwood, une plateforme d'attaques développée par un groupe d'assaillants aux ressources apparemment illimitées, ou encore « Red October » (janvier 2013) et Miniduke (février 2013), toutes deux visant principalement à espionner les gouvernements d'Europe de l'Ouest et d'Amérique du Nord. Enfin, le groupe APT1 aussi connu sous le nom de CommentCrew, un groupe de hackers chinois apparemment associé à une structure militaire et sponsorisé par le gouvernement chinois, fut mis à jour et largement détaillé dans un rapport publié par la société Mandiant en février 2013.

1.1 Profil type d'une attaque ciblée

La forme la plus commune d'une attaque ciblée consiste à envoyer un courriel de type « spear-phishing » à la personne ciblée (phase d'incursion). Dans un tel e-mail, l'assaillant fait en général usage de techniques d'ingénierie sociale et utilisera des thèmes propices en relation avec les activités professionnelles de la victime, ou faisant référence à une réunion ou une rencontre présumée. L'e-mail contient généralement un fichier joint, tel qu'un document PDF, Word ou Excel, qui contient un dropper chargé d'exploiter une vulnérabilité dans le logiciel apparenté (MS Office, Adobe, etc.). Si la vulnérabilité est présente sur la machine de la victime, le dropper pourra alors installer à l'insu de cette personne une backdoor permettant à l'assaillant de prendre le contrôle total de la machine, et d'espionner en toute liberté non seulement le système de fichiers de cette machine (phase de « découverte »), mais également tout le réseau de l'entreprise (ce qu'on appelle communément la phase de « reconnaissance et mouvement latéral »). Lorsque l'assaillant aura trouvé les documents ou informations recherchés, il utilisera d'autres outils afin de les envoyer discrètement, via le réseau, vers un ou plusieurs serveurs sous son contrôle (phase « d'exfiltration »).

Bien que les attaques ciblées restent relativement rares en comparaison avec les autres formes d'attaques plus communes et motivées par le gain financier immédiat, elles n'en restent pas moins destructrices et leurs conséquences peuvent être désastreuses pour les industries ou les organisations victimes de telles attaques, à la fois sur le plan financier, mais aussi par rapport à la réputation de l'organisation ainsi que la confiance vis-à-vis de ses clients. Une prévention efficace de telles attaques passe donc avant tout par une bonne compréhension des ces nouvelles formes d'attaques, et surtout des modes opératoires de leurs auteurs.

1.2 Identification et attribution de campagnes de cyberespionnage

L'identification d'attaques ciblées isolées, en particulier un courriel de type « spear-phishing », reste une tâche assez difficile, de par leur niveau de sophistication et leur apparence assez proche d'e-mails tout à fait « normaux ». Fort heureusement, il est assez rare que de telles attaques soient exécutées par un seul assaillant, de manière complètement isolée. Dans la plupart des campagnes ciblées identifiées jusqu'ici, on a pu observer des vagues d'attaques relativement similaires, envoyées à plusieurs individus faisant partie des organisations cibles (parfois dans différents secteurs d'activité), et orchestrées par un petit groupe d'assaillant désireux de maximiser leurs chances de compromettre au moins une des victimes ciblées.

Par conséquent, avec un peu d'expérience analytique et suffisamment d'information, il est possible d'utiliser des outils de corrélation avancés et de les appliquer sur de grands ensembles de données de manière transverse (c'est-à-dire au travers des données de plusieurs utilisateurs, travaillant pour différentes sociétés ou organisations, dans différents pays, etc.). Le but final est de reconstruire ces campagnes d'attaques ciblées en utilisant tous les indicateurs de compromission (IOC's) à notre disposition, ceci afin de corréler les e-mails utilisés par les assaillants par rapport à tous les éléments susceptibles d'être utiles (tels que les adresses « From » et « To », les caractéristiques du fichier joint, les sujets et contenus de l'e-mail, les origines de l'émetteur, etc.). Dès lors, il suffit d'avoir connaissance d'un seul e-mail ou d'un seul indicateur associé avec un groupe d'assaillants clairement identifié (tel que APT1, Elderwood, Miniduke, etc.) pour pouvoir éventuellement regrouper et connecter ensemble tous les autres e-mails susceptibles de provenir du même groupe.

Fig. 1 : Description globale de la vulnérabilité.

Toutefois, identifier des groupes d'attaques « similaires », ou potentiellement liés ensemble n'est pas aussi simple. En effet, certains groupes de cybercriminels peuvent disposer d'outils relativement sophistiqués, leur permettant de modifier aisément n'importe quel aspect de leurs attaques ou de leur méthodologie. Intuitivement, il est facile d'imaginer que la même attaque puisse être « recyclée » et réutilisée contre des cibles complètement différentes. Le challenge ici, en tant qu'investigateur, est d'arriver à regrouper des e-mails utilisés dans des attaques ciblées pouvant avoir une même provenance, et les attribuer ensuite à un groupe d'assaillants connu, sans avoir connaissance a priori de l'ensemble d'indicateurs qui devrait être utilisé à cet effet. En d'autres mots, l'ensemble d'indicateurs corrélés permettant l'identification de telles campagnes d'attaques peut varier d'un groupe à l'autre – étant donné que des groupes d'assaillants distincts peuvent utiliser des méthodologies ou des outils complètement différents. Cette corrélation multidimensionnelle variable est illustrée à la Figure 1, où l'on peut observer trois intrusions provenant d'un même groupe, liées ensemble par différend indicateurs selon que l'on compare les intrusions (1,2) ou (2,3).

1.3 La « visualisation analytique » à la rescousse

La visualisation analytique (« visual analytics » en anglais) peut heureusement nous venir en aide dans l'analyse forensics et l'investigation de campagnes de cyberattaques. La visualisation analytique est une discipline scientifique assez nouvelle qui vise à combiner des algorithmes de fouille de données avec des techniques de visualisation, tout en incluant l'analyste dans le processus en lui permettant d'interagir avec les résultats d'analyse provenant d'algorithmes souvent complètement automatisés et parfois assez opaques. L'idée sous-jacente est en fait que ces algorithmes de « data mining » sont souvent complexes et fournissent des résultats parfois difficilement exploitables par un expert humain, alors que la visualisation de ces résultats permet souvent d'exploiter la perspicacité de l'œil humain à détecter rapidement des motifs ou des relations complexes dans des données multidimensionnelles. C'est donc cette synergie entre l'aspect analytique et l'aspect visualisation que nous avons essayé d'exploiter afin de développer un outil d'attribution et d'investigation d'attaques efficace, qui tienne compte de l'aspect « corrélation dynamique » et qui puisse mettre en lumière les différents modes opératoires des assaillants.

2. TRIAGE: un outil d’attribution et d’investigation de cyberattaques

Développé par Symantec Research Labs, TRIAGE1 est un framework d'analyse forensics et d'investigation de cyberattaques qui s'appuie sur des technologies de fouille de données de type « clustering ». L'idée est de reproduire en quelque sorte la méthodologie utilisée par les enquêteurs et experts de la police criminelle, mais ici évidemment dans le mode numérique d'Internet. TRIAGE a donc été conçu afin de permettre à l'analyste de relier ensemble de manière automatique toutes les attaques ou intrusions pouvant avoir une même provenance, voire les mêmes auteurs. Par exemple, cet outil peut être utilisé pour analyser les indicateurs présents dans les e-mails de spear-phishing utilisés par les assaillants, et les regrouper lorsque ceux-ci partagent suffisamment de points communs, c'est-à-dire suffisamment d'indicateurs similaires.

Fig. 2 : Illustration de l'approche TRIAGE qui combine des techniques de fouille de données et de visualisation afin de faciliter l'investigation de campagnes de cyberattaques.

Le pipeline d'analyse TRIAGE, tel qu'appliqué sur des e-mails d'attaque (type spear-phishing), est illustrée à la Figure 2. Après avoir analysé toutes les relations possibles entre les différents e-mails (étape 2), TRIAGE va alors les fusionner (étape 3) de sorte que seuls les groupes d'e-mails partageant un nombre suffisant de similarités seront attribués à un même groupe. L'utilisation de techniques de fusion de données (de type « Multi-Criteria Decision Analysis » ou MCDA) nous permet ici de nous affranchir de l'obligation de devoir spécifier précisément quel ensemble de similarités est nécessaire, et nous permet plutôt d'indiquer à l'outil quels indicateurs (ou quelles combinaisons) sont considérés comme important pour la corrélation et l'attribution des attaques. Les fonctions de similarité utilisées dans le framework peuvent être adaptées au type de données traitées (par exemple, N-gram ou bien edit distance pour les chaînes de caractère, Jaccard pour des ensembles de valeurs, MD5 ou ssdeep pour comparer les fichiers joints, etc.). Toutes ces similarités seront alors fusionnées de manière intelligente afin d'éviter de regrouper des attaques qui ne partagent pas suffisamment de points communs.

Grâce au projet Européen VIS-SENSE, TRIAGE a été enrichi de différentes technologies de visualisation interactive permettant d'explorer visuellement des groupes de données (ou « clusters ») et de donner un sens aux corrélations multidimensionnelles présentes au sein d'un même groupe d'e-mails d'attaque. Tel qu'illustré ci-après, cette visualisation interactive des « clusters d'attaques » permet également de mettre en évidence les techniques, tactiques et procédures (TTP's) utilisées par les assaillants.

3. Application aux récentes campagnes de cyberespionnage

Entre début 2011 et fin 2013, Symantec a bloqué plus de 100 000 e-mails de type spear-phishing, tous identifiés comme étant « ciblés », c'est-à-dire (1) en faible nombre comparé aux autres types d'activité malveillante (2) qui présentaient un certain niveau d'ingénierie sociale en relation avec les activités du destinataire, et (3) qui contenaient un fichier joint malveillant, la plupart du temps un document infecté par un exploit (dans certains cas, un 0-day), qui vise à installer une backdoor sur la machine cible.

La plupart de ces spear-phishing e-mails ne constituent pas des attaques isolées perpétrées par des assaillants agissant de manière indépendante. Au contraire, l'analyse TRIAGE effectuée sur ces e-mails a révélé qu'un nombre limité de campagnes d'attaques regroupaient une majorité des e-mails (plus de 80% d'entre eux ont pu être regroupés dans seulement quelques centaines de campagnes différentes). Au sein de chaque campagne d'attaque, les e-mails sont tous liés par au minimum 3 ou 4 caractéristiques parmi toutes celles utilisées par l'outil d'analyse, c'est-à-dire :

origines de l'attaque : adresse « From », adresse source (IP), pays d'origine ;
date d'envoi ;
caractéristiques du fichier joint : MD5, fuzzy hash (ssdeep), signature anti-virus, nom du fichier, type de document, nom de domaines contactés par le malware une fois installé chez la victime, etc. ;
sujet et contenu de l'e-mail ;
adresses e-mail des destinataires (champs « To », « cc » et « bcc).

Toutefois, la combinaison spécifique des caractéristiques similaires peut varier, même au sein d'une même campagne, reflétant ainsi un changement de mode opératoire de la part des assaillants.

Il est intéressant de noter qu'environ 2/3 des campagnes d'attaques identifiées vise un nombre limité d'organisations actives dans des secteurs apparentés, tandis qu'un autre tiers des campagnes semble être organisé à une échelle relativement plus importante, et bien qu'étant qualifiées de « ciblées », semblent toutefois ratisser plus large en visant un plus grand nombre d'individus et de sociétés dans des secteurs complètement différents. Passons à présent à quelques exemples illustratifs afin de fixer les idées.

3.1 Darkmoon: une campagne gouvernementale et diplomatique

La campagne « Darkmoon » (du nom du malware utilisé par les assaillants dans le fichier joint aux e-mails) est un exemple illustratif de campagne d'attaques ciblées, organisées toutefois à une échelle relativement grande. Cette campagne fut identifiée en 2011. Environ 850 e-mails de type spear-phishing furent alors identifiés comme faisant partie de cette campagne probablement organisée par un même groupe d'assaillants, étant donné les nombreuses similarités ou connections entre e-mails. La plupart des attaques ont visé des organisations gouvernementales et diplomatiques, avec une minorité d'e-mails envoyés également à des organismes financiers.

« Darkmoon » est représenté à la Figure 3 à l'aide d'une visualisation sous forme de graphe où les noeuds représentent des caractéristiques particulières des e-mails, et les liens les cooccurrences entre ces caractéristiques. La taille des noeuds est en proportion avec le nombre d'occurrences des attributs représentés, tandis que la taille des liens entre deux noeuds est également en relation avec la fréquence de l'association représentée.

Fig. 3 : Une campagne d'attaques ciblées provenant d'un même groupe d'assaillants et utilisant le malware « Darkmoon » (entre avril et juillet 2011).

Les 850 e-mails de cette campagne furent envoyés à 16 dates différentes (noeuds en mauve) sur une période totale de 3 mois. Toutes les attaques furent lancées à partir de 3 comptes e-mail web gratuits (noeuds en rouge), en faisant usage de divers sujets (en jaune) en relation avec des questions géopolitiques susceptibles d'intéresser les victimes ciblées. On constate que la 1ère vague d'attaques fut lancée le 28 avril 2011 à partir du 1er compte e-mail (« madhurdevgan »), durant laquelle 4 organisations furent ciblées, dont le CEO ainsi que plusieurs exécutives d'une de ces organisations. Le CEO fut ciblé 34 fois durant cette campagne.

Les assaillants ont ensuite utilisé un second compte e-mail (« mayura ») pour envoyer la plus grande partie des attaques en continuant de viser les 4 organisations précédentes, mais également une douzaine d'autres – toujours dans les mêmes secteurs d'activités. Une des organisations fut visée plus de 450 fois durant cette même campagne, qui cibla au moins 23 individus au sein de cette organisation (appartenant principalement au département recherche).

Une dernière vague d'attaques fut lancée le 30 juin 2011 à partir d'un 3ème compte e-mail (« john ») pour se terminer 19 jours plus tard, et durant laquelle 5 nouvelles organisations furent attaquées. Sur une durée totale de trois mois, des centaines d'e-mails, écrits en anglais (pour les cibles européennes), mais aussi en chinois (quand il s'agissait de cibles asiatiques susceptibles de parler cette langue) furent envoyés par un même groupe d'assaillants, en changeant constamment de sujet et de contenu, mais en réutilisant soit le même exploit (SWF/CVE-2011-0611.C), soit les mêmes serveurs C&C (noeuds en vert dans le diagramme) afin de contrôler les machines compromises et exfiltrer les données. À noter que les adresses et domaines utilisés dans l'infrastructure C&C mise en place par les assaillants peuvent être extraits grâce à une analyse dynamique des pièces jointes malveillantes à l'aide de systèmes du type « malware sandbox », qui les ouvrent et laissent s'exécuter leur charge utile dans une machine vulnérable contrôlée où toutes les actions du programme malveillant (souvent une backdoor) sont contenues et enregistrées pour pouvoir ensuite être analysées.

Une excellente revue des différentes techniques et outils disponibles actuellement dans le domaine de l'analyse dynamique de malwares a été publiée récemment par des chercheurs d'Iseclab, Eurecom et UCSB.

Le point intéressant à noter également dans la plupart de ces campagnes d'attaques est que les e-mails envoyés au début de la campagne n'ont souvent plus rien en commun avec ceux envoyés durant la dernière vague d'attaques. D'où la nécessité de recourir à ce genre de technologies permettant de reconstruire toute la chaîne d'attaques et de la visualiser dans son ensemble selon une ligne du temps.

La visualisation en graphe permet de donner rapidement une bonne vue d'ensemble et de comprendre le déroulement d'une campagne d'attaques ciblées ainsi que les principales relations entre les e-mails spear-phishing utilisés par les assaillants. Ce type de visualisation peut être générée relativement facilement à l'aide d'outils tels que graphviz pour le placement des noeuds. Dans le cas de la Figure 3, nous avons utilisé un placement de type « force-directed » tout en conservant les noeuds constituant la ligne de temps horizontale fixés à des positions d'ancrage. D'excellentes librairies Python sont disponibles gratuitement (telles que pygraphviz et networkx) pour faciliter la génération et manipulation de graphes similaires à ceux présentés dans cet article, et pour s'interfacer avec graphviz en quelques lignes de code. Pour le rendu graphique, nous avons utilisé ici le logiciel Gephi, également disponible gratuitement, qui permet de créer un fichier gexf (graph exchange format). À noter que d'autres outils et librairies de visualisation de graphes permettent d'obtenir des résultats similaires à ceux présentés dans cet article, tels que les outils fournis avec la distribution Linux DAVIX disponible gratuitement sur SecViz.org.

3.2 Elderwood Project: les « experts 0-day »

Une campagne d'attaques ciblées, même limitée à seulement une ou deux organisations, peut parfois inclure un grand nombre d'e-mails envoyés en peu de temps. C'est le cas d'une campagne lancée par un groupe connu sous le nom de code « projet Elderwood » et identifiée en avril 2012. Le nom « Elderwood » réfère à un groupe d'assaillants capable de lancer des campagnes bien ciblées, en utilisant pour cela une plateforme de développement leur permettant d'identifier et déployer rapidement de nouveaux exploits (visant la plupart du temps des vulnérabilités de type « 0-day »).

En avril 2012, une de leurs campagnes d'attaques fut identifiée, avec environ 2000 spear-phishing e-mails envoyés par les assaillants contre le même nombre d'employés appartenant à deux grandes industries de Défense. Les activités du groupe Elderwood semblent remonter aussi loin que 2009, avec des connexions apparentes avec l'attaque connue sous le nom « Opération Aurora » (Hydraq). Les assaillants de ce groupe ont depuis lors utilisé de manière systématique un certain nombre de « zero-day » à plusieurs reprises afin d'attaquer un nombre assez conséquent d'industries ou d'organisations liées à celles-ci (telles que des fournisseurs). Leur méthodologie d'attaque a toujours inclus des spear-phishing e-mails, mais depuis 2012 on a aussi pu assister à l'utilisation d'attaques de type « watering holes » (c'est-à-dire, les assaillants compromettent en même temps certains sites web susceptibles d'être souvent visités par les employés des organisations ciblées). Il existe un nombre très limité de groupes ayant de telles ressources techniques, et capables de déployer un nombre aussi élevé d'exploits entièrement nouveaux et de monter des attaques aussi sophistiquées en si peu de temps. Elderwood en fait partie.

Fig. 4 : Une campagne d'attaques ciblées attribuées au gang « Elderwood » (avril 2012).

La Figure 4 représente une campagne spear-phishing attribuée à Elderwood, identifiée en avril 2012. Il apparaît assez clairement que les assaillants ont utilisé un certain nombre de comptes e-mails différents, appartenant principalement au domaine gg880dd.com (en rouge) afin d'envoyer leurs attaques en vagues successives. Au total, pas moins de 1800 e-mails furent envoyés, le même jour, au même nombre de destinataires appartenant à seulement deux industries de Défense différentes (mais probablement apparentées). Le sujet de chaque e-mail a été adapté à chaque destinataire (voir les noeuds en jaune sur l'extérieur). Seules quelques pièces jointes différentes (MD5) – dont une principale – furent utilisées afin d'essayer d'infecter les machines des victimes. En cas de succès, la backdoor installée se connectait systématiquement aux mêmes domaines C&C (indiqués en vert). Un autre point marquant dans cette campagne est l'usage d'un même agent logiciel (Foxmail 6) pour l'envoi de la plupart des e-mails – bien que celui pourrait avoir été simulé. Comme dans la plupart de leurs opérations, les assaillants ont fait usage d'un exploit de type 0-day pour cette campagne (identifié par après CVE-2012-0779). Pour finir, les motifs apparents dans la visualisation de cette campagne suggèrent fortement l'utilisation d'outils automatisés par les assaillants du groupe Elderwood, démontrant une fois de plus leur niveau de sophistication dans l'élaboration de telles campagnes d'attaque.

Les visualisations de cet article montrent une vue d'ensemble statique de certaines campagnes d'attaque. Des vidéos démontrant les possibilités en termes d'interaction avec ces visualisations sont disponibles sur le site du projet VIS-SENSE.

Comme pour la campagne précédente, nous avons à nouveau utilisé des outils logiciels open source (tels que pygraphviz, networkx, et Gephi) pour générer le graphe Elderwood à partir de la campagne d'e-mails spear-phishing identifiée par TRIAGE. Il est intéressant de noter que les fichiers au format gexf (produits par Gephi) peuvent être visualisés de façon interactive dans un navigateur en utilisant le module JavaScript gexf-js, disponible gratuitement (sous licence MIT), et que nous avons étendu avec de nouvelles fonctionnalités et intégré à notre framework web (Figure 5). Ce module de visualisation facilite l'exploration et la compréhension de tels graphes et des interconnexions entre noeuds, en permettant à l'utilisateur de déplacer les noeuds afin d'améliorer le placement et le rendu visuel, de zoomer sur certains éléments, de rechercher des motifs particuliers ou encore de masquer certaines parties.

Fig. 5 : Visualisation interactive de la campagne Elderwood dans un navigateur web à l'aide d'un module JavaScript s'appuyant sur gexf-js, qui a été étendu avec de nouvelles fonctionnalités dans le cadre du projet VIS-SENSE.

Pour finir, voici un échantillon des sujets d'e-mails et pièces jointes associées à cette campagne afin d'illustrer les thèmes typiquement utilisés par les assaillants :

Sujets d'e-mail	Pièces jointes	MD5
Wage Data 2012	page 1-2.doc	c0c83fe9f21560c3be8dd13876c11098
London 2012 Medal Top 10	MedalTop10.doc	919708b75b1087f863b6b49a71eb133d
Message from Anne regarding ** Organizational Announcement!*	Message_from_PerInge.doc	8b47310c168f22c72a263437f2d246d0
The * is in the unpromising situation after acquisition by *	create.doc	4525759c6452f2855ca815277f519684
Hi, [REM]. I heard about the consolidation of *, is that true?	Consolidation Schedule.doc	78c3d73e2e2bba6d8811c5dc39edd600
Invitation Letter to LED Industry Summit 2012.	[REM] Invitation Letter to LED Industry Summit 2012.doc	4525759c6452f2855ca815277f519684 84a1405c9e96c037a9d332def39f2d29

3.3 APT1/CommentCrew : des cyber-warriors disciples de Sun Tzu ?

Un autre groupe d'assaillants (threat group) possédant des ressources apparemment développées, et qui s'est forgé une certaine réputation, est bien connu aujourd'hui sous le nom de « APT1 / CommentCrew », un groupe de hackers chinois qui, selon certains rapports (tel que celui publié par Mandiant en février 2013) serait apparenté à une unité militaire chinoise (PLA Unit 61398) et sans doute sponsorisé par leur gouvernement.

La plupart des campagnes d'attaques ciblées observées jusqu'ici provenant de ce groupe d'assaillants semble correspondre au profil de campagnes « à large échelle », c'est-à-dire visant un assez grand nombre d'industries et organisations différentes durant la même campagne. Comme certains autres groupes d'assaillants dignes de ce nom, les activités de APT1 remontent probablement à plusieurs années. La Figure 7 visualise une de leurs campagnes d'attaques identifiée en avril/mai 2012, durant laquelle on a pu observé plus de 1200 spear-phishing e-mails envoyés depuis 44 adresses différentes, visant plus de 191 destinataires appartenant à plus de 20 sociétés différentes, pour la plupart actives dans les secteurs de l'aéronautique, l'aérospatial, la Défense, les communications par satellite, l'ingénierie ainsi que des organisations gouvernementales.

Fig. 7 : Visualisation d'une campagne d'attaques APT1/CommentCrew identifiée en avril/mai 2012.

Les relations entre spear-phishing e-mails provenant de ce groupe apparaissent relativement complexes, démontrant la capacité des assaillants à changer constamment leurs attaques et varier leurs tactiques. Les e-mails furent envoyés à 10 dates distinctes sur une période de deux mois. Toutefois, certains aspects de la campagne ressortent plus particulièrement de cette visualisation en graphe (Figure 7):

l'utilisation récurrente d'une version spécifique de Outlook comme logiciel d'envoi des e-mails ;
tous les fichiers joints malveillants contenaient des exploits assez similaires, exploitant les mêmes vulnérabilités dans des logiciels typiquement utilisés en bureautique (MS Office, Adobe) ;
tous les malwares installés après la phase d'exploitation se connectent d'abord sur l'adresse update.microsoft.com, sans doute afin de tester leur connectivité Internet, pour ensuite se connecter à un nombre limité de serveurs C&C (adresses IP indiquées en vert dans la Figure) ;
les e-mails ont été envoyés depuis un nombre limité d'adresses IP (représentées en beige).

Concernant les sujets des e-mails, les assaillants font preuve d'une imagination constante en utilisant des thèmes relativement bien appropriés pour les destinataires visés, tel qu'illustré ci-dessous par l'échantillon de sujets d'e-mails et de pièces jointes associées :

Sujets d'e-mail	Pièces jointes	MD5
April Is the Cruelest Month … for China	April Is the Cruelest Month.pdf	5afdb5db234a1a13f5449be25f1149992 997ec540932ea6b1fe0cab555b939d8
FW: air quality sensor technology for use on aircraft	sensor environments.doc	3fecd601404abda8f793ff5cc7ecf973
FW: Security Predictions for 2012 and 2013	Security Predictions for 2012 and 2013.pdf	e1117ec1ea73b6da7f2c051464ad919 7d795292ea23217480ad92939daf6dd22
FW: FY2013 Defense Budget	FY2013_Budget_Request_ Overview_Book.pdf	953b138a2d8e5629a3b850dc798a3688
Fwd: Understand your blood test report	Understand your blood test report.pdf	5aea3a20553a07fa50c4e815cf9ba7ff
Information Systems & Global Solutions	Schedule_list.pdf	b96b79f4f1b4306ac2c63fc988305fb0
FW: The ** Company Department of Defense FY12.A STTR Solicitation Topic Interests*	Dept of Defense FY12 A STTRSolicitation Topics of Interest to <aerospace comp>.pdf	be54e3660bf928b8b5f764f5cdfdc4da
Current Market Outlook 2011 to 2030 report	[REM]_Current_Market_ Outlook_2011_to_2030.pdf	d6e98d062d7900c6fe9a6d7f0b1d7fec
Technology 2012 Salary Guide	RHT_SalaryGuide_ 2012.pdf	5bdb1b2313541f4cdc967391a4d150f4
ISA/APSA/IPSA Human Rights Conference	HR 2012 Conference Program .doc	7d101cc3b87ac51c0c1ca8a4371bc84a
Re:FW: air quality sensor technology for use on aircraft	sensor environments.doc	3fecd601404abda8f793ff5cc7ecf973

La visualisation sous forme de graphe est généralement assez explicite et facile à interpréter, mais elle ne permet cependant pas de visualiser toutes les relations ou associations entre les e-mails d'une même campagne d'attaque. Bien qu'un choix judicieux de l'algorithme de placement des nœuds du graphe puisse certainement aider à éclaircir la visualisation (tel que le placement en cercle utilisé à la Figure 7), dans le cas de relations multidimensionnelles plus complexes, le graphe peut rapidement devenir quasiment illisible (du à l'effet « hairball », c'est-à-dire la superposition des noeuds et de liens trop nombreux). D'autres types de visualisations interactives peuvent donc apporter une vision plus claire tout en permettant d'explorer l'ensemble des associations et corrélations parmi les e-mails d'une campagne d'attaque, et ce malgré une organisation ou une structure plus complexe.

Par exemple, un diagramme en cordes (« chord diagram ») permet de représenter toutes les cooccurrences possibles entre les caractéristiques des e-mails et leur importance respective (par exemple, les cooccurrences entre un certain fichier joint et les adresses « From » associées, ou encore certains sujets d'e-mails). Un exemple de diagramme en cordes est représenté à la Figure 8 pour la campagne APT1, où l'on peut visualiser toutes les connexions joignant le cluster d'e-mails ayant comme attribut commun l'utilisation du même agent logiciel (Outlook build 11.0.6353) avec tous les autres clusters d'e-mails créés pour les autres dimensions (adresse From, domaine du destinataire, sujets des e-mails, etc.). De manière analogue, l'analyste peut aisément changer son angle de vue pour explorer les autres cooccurrences entre des groupes d'attributs différents. Ce genre de diagramme en cordes peut aider à générer une vue simplifiée d'une structure assez complexe, grâce au regroupement des attributs similaires et leur placement autour d'un cercle. Un tel diagramme peut être généré et visualisé à l'aide de l'excellente libraire D3js. Un type de visualisation alternative pour générer des représentations simplifiées de grandes structures complexes consiste à utiliser des « Treemaps », une représentation hiérarchique permettant de visualiser des clusters de données en utilisant l'espace de manière efficace.

Fig. 8 : La campagne d'attaques APT1/CommentCrew, visualisée ici à l'aide d'un diagramme en cordes généré sur les groupes d'e-mails partageant une caractéristique commune (même adresse From, sujet similaire, etc.).

Conclusions

Les attaques ciblées posent un problème majeur aujourd'hui pour la plupart des entreprises, mais également pour les États, les gouvernements et la protection de nos infrastructures critiques. Bien que ces attaques soient minutieusement préparées par des assaillants déterminés capables de monter des attaques relativement sophistiquées, nous avons montré dans cet article que ces cyberattaques sont rarement l'œuvre d'un seul individu isolé, mais sont plutôt organisées sous forme de « campagne » coordonnée par des groupes d'assaillants quasi-professionnels.

Nous avons montré qu'il est donc possible d'utiliser des outils de corrélation avancés, et de les appliquer de manière transversale (au travers de différents utilisateurs, sociétés, pays, etc.) afin de reconstruire ces campagnes d'attaques en utilisant tous les indicateurs (IOC's) et éléments à notre disposition (tels que les caractéristiques des e-mails et des pièces jointes). Le plus grand challenge est d'arriver à corréler différentes attaques sans connaître a priori quel ensemble de caractéristiques est le plus approprié pour relier ou regrouper les attaques provenant des mêmes auteurs, et arriver finalement à les attribuer à un groupe d'assaillants spécifique.

Enfin, nous avons montré que la visualisation analytique – c'est-à-dire la synergie entre des algorithmes d'analyse et de fouille de données et la visualisation interactive – pouvait être utilisée avec succès dans l'analyse forensics et l'investigation de campagnes de cyberattaques. À l'aide du framework TRIAGE, un prototype de visualisation analytique développé par Symantec Research Labs, nous avons analysé quelques exemples notoires de campagnes d'attaques ciblées pour montrer comment ces nouvelles technologies pouvaient aider l'analyste à identifier et attribuer des groupes d'attaques ayant une même provenance, et surtout mettre en lumière les modes opératoires des assaillants grâce à la visualisation de relations complexes au sein de données multidimensionnelles.

Notes et références

[1] TRIAGE est un projet de recherche mené par Symantec Research Labs, dont les visualisations ont été développées grâce au projet Européen VIS-SENSE. Cet article vise à démontrer l'usage de nouvelles technologies, telles que les techniques de fouille de données et la visualisation analytique, dans le cadre d'analyses forensics et d'investigation de cyberattaques. En revanche, l'article ne fait en aucune sorte la promotion d'un quelconque produit commercial disponible sur le marché.

[2] VIS-SENSE : Visual Analytic Representation of Large Datasets for Enhancing Network Security, un projet de recherche et développement en visualisation analytique appliquée au domaine de la sécurité des réseaux, a été partiellement financé par la Commission Européenne dans le cadre du programme FP7 (2010-2013). Pour plus d'informations: http://www.vis-sense.eu.

[3] Gephi, Graphviz : logiciels open source de visualisation interactive de graphes et de réseaux.

[4] Gexf-js : librairie JavaScript de visualisation interactive de graphes au format gexf (Graph Exchange Format)

[5] Pygraphviz et networkx : modules Python de génération et manipulation de graphes et de réseaux

[6] D3js.org : une librairie JavaScript très complète pour la visualisation de données sur le web

[7] Plus d'infos sur les campagnes d'attaques ciblées : voir rapport annuel Symantec, Internet Security Threat Report (ISTR), disponible sur http://www.symantec.com/security_response/publications/threatreport.jsp

[8] DAVIX, Data Analysis and Visualisation Linux. Disponible sur SecViz.org.

Attaques ciblées : la visualisation analytique comme outil forensics et d'investigation

1. Introduction

1.1 Profil type d'une attaque ciblée

1.2 Identification et attribution de campagnes de cyberespionnage

1.3 La « visualisation analytique » à la rescousse

2. TRIAGE: un outil d’attribution et d’investigation de cyberattaques

3. Application aux récentes campagnes de cyberespionnage

3.1 Darkmoon: une campagne gouvernementale et diplomatique

3.2 Elderwood Project: les « experts 0-day »

3.3 APT1/CommentCrew : des cyber-warriors disciples de Sun Tzu ?

Conclusions

Notes et références

Article rédigé par

Thonnard Olivier

Les listes de lecture

Sécurité Windows : Active Directory

Sécurité des mobiles

Cryptographie appliquée