La CCTV : un système de surveillance en circuits ouverts ?

MISC HS n° 015 | juin 2017 | Laëtitia Laurent - Hugo Meziani
Creative Commons
  • Actuellement 0 sur 5 étoiles
0
Merci d'avoir participé !
Vous avez déjà noté cette page, vous ne pouvez la noter qu'une fois !
Votre note a été changée, merci de votre participation !
Cela ressemble à une vieille histoire qui a déjà été contée : un système dont les technologies historiques se sont modernisées vers le numérique, introduisant ainsi des vulnérabilités dans un environnement critique. Et si cette évolution rappelle celle des réseaux industriels, c’est aussi celle des réseaux de sûreté, notamment la CCTV.

1. De la cassette à la surveillance IP

Les systèmes de CCTV (Closed-Circuit TeleVision) répondent au besoin de surveillance et de contrôle du périmètre physique. Historiquement réservés aux sites les plus sensibles, ils se sont démocratisés et font maintenant partie du paysage urbain.

Les anciens systèmes étaient constitués de caméras analogiques et étaient reliés à des enregistreurs à bandes (vidéo cassette). Ils étaient tout à fait indépendants et relevaient exclusivement du domaine de la sûreté. S’ils n’étaient à l’époque pas concernés par les problématiques de sécurité informatique, la plupart des systèmes reposent aujourd’hui sur des réseaux IP, embarquant des noyaux Linux et des postes sous Windows.

En effet, lors de l’arrivée de la vidéo numérique, les systèmes de surveillance en circuits fermés (CCTV) se sont adaptés et ont embarqué petit à petit plus d’intelligence (détection de mouvements, remontées d’alarmes, etc.). Ils se sont aussi interconnectés avec les autres systèmes environnants pour permettre des heuristiques plus précises ou des fonctionnalités à valeur ajoutée telles que l’identification de personnes.

2. Des évolutions technologiques qui introduisent de nouveaux risques

Les protocoles métiers et les infrastructures réseau utilisées sont conçus essentiellement sur la base de contraintes de sûreté et protection environnementale, et n’incluent pas de fortes exigences de sécurité informatique. De plus, l’utilisation de TCP/IP incitant à mutualiser ou interconnecter les réseaux, la CCTV peut constituer un point de rebond vers d’autres systèmes plus critiques, tels que le système de sécurité incendie. Ils peuvent aussi être connectés à Internet dans le but de pouvoir administrer et maintenir à distance les équipements, sans pour autant que les risques associés aient été pris en compte lors de la conception.

La CCTV est un réseau très attractif pour un éventuel attaquant. Les fonctionnalités de surveillance de ces caméras, et leurs implantations au cœur ou en périmétrie d’un site peuvent amener de nouveaux risques. En effet, ce système, même déconnecté du reste du monde, est suffisamment attractif pour être la cible d’un attaquant.

Dans certains cas, la CCTV est sujette à de fortes exigences de disponibilité. Aussi, il peut être intéressant pour un attaquant de vouloir rendre inopérant le système de surveillance.

Par ailleurs, les informations circulant dans ces systèmes peuvent être confidentielles. Un accès frauduleux à ces derniers peut permettre de récupérer des informations sensibles, à des fins d’espionnage ou dans le cadre d’une attaque à grande échelle. Par exemple, la CCTV peut être utilisée pour permettre le shoulder surfing ou l’établissement des plans d’un bâtiment.

Un attaquant désirant nuire spécifiquement à une personne ou une entreprise pourra aussi par des techniques d’interception et de modification de flux, obtenir des données et ainsi faire pression sur sa cible. Par exemple, des enregistrements relevant du domaine privé ont ainsi déjà été utilisés (chantage, pression médiatique) et ont prouvé l’attractivité de ce type d’attaque.

Les équipements présents dans un réseau de télésurveillance peuvent aussi servir de vecteurs d’intrusion. En effet, l’interconnexion des systèmes peut permettre, par rebonds, d’accéder à d’autres réseaux de sûreté difficilement joignables, tels que le système de sécurité incendie, considéré comme critique. Les cas d’application sont par exemple la corrélation d’événements entre systèmes de sécurité, ou la commande inter-système. Ainsi, un système CCTV pourra être commandé par un système de sécurité incendie, afin de braquer une caméra sur une zone faisant l’objet d’une détection feu. Finalement, la CCTV est aussi régulièrement connectée au réseau bureautique. Par exemple, des alarmes peuvent être envoyées vers des serveurs bureautiques (e-mails, traps SNMP…), ou des utilisateurs peuvent souhaiter disposer d’accès à la visualisation depuis leurs postes bureautiques.

Dans certains cas, ils peuvent être considérés comme des systèmes d’information d’importance vitale (SIIV) au sens de la Loi de Programmation Militaire (LPM) [1]. En effet, ils héritent des qualités des sites qu’ils surveillent (par exemple : surveillance de sites nucléaires) ou des réseaux avec lesquels ils s’interconnectent (par exemple : interconnexion avec un réseau industriel critique).

Par ailleurs, le maintien en condition de sécurité (patching, protection contre les codes hostiles, revue des journaux…) est rarement demandé ou effectué, entraînant une importante dérive du niveau de sécurité avec le temps.

Aussi, la CCTV doit être considérée comme un maillon faible de la cybersécurité : il est nécessaire que ses risques soient pris en compte dès la conception.

3. Fonctionnalités, équipements & protocoles : les composants de la CCTV

3.1 Caméra

L’élément clef du réseau de surveillance est bien entendu la caméra. Elle peut être fixe ou mobile (Pan Tilt Zoom), analogique ou numérique, filmer dans le spectre visible ou infrarouge.

Les caméras analogiques envoient un flux en continu au serveur, alors que la caméra IP (appelée aussi caméra réseau), dotée d’une pile réseau complète, dispose de fonctionnalités avancées dont la sélection automatique de l’envoi des séquences (après détection d’un mouvement par exemple).

Le firmware est souvent sur un Linux embarqué, muni de solutions comme BusyBox [2] ou encore Dropbear [3] pour l’administration distante, ainsi que différents binaires pour les fonctionnalités de caméra. La caméra offre alors de multiples possibilités pour s’y connecter, afin de recevoir des flux et d’envoyer des commandes (SSH, Telnet, etc.), multipliant ainsi interfaces et protocoles exposés.

3.2 Composants intermédiaires

L’applicatif principal permettant d’interagir avec le parc de caméras est appelé VMS (Video Management System). Il permet entre autres de : collecter les flux vidéos, les enregistrer et les visionner.

En complément du VMS, d’autres composants de traitement du flux vidéo peuvent être présents, sous forme d’appliances, de machines virtuelles ou physiques. L’évolution technologique rend leur distinction de plus en plus difficile. On retrouve généralement :

- ADC (Analog to Digital Converter) : il permet de convertir un flux vidéo analogique vers un flux vidéo numérique ;

- Video Encoder : il permet d’interfacer des caméras analogiques avec un réseau IP et offre de nombreuses fonctionnalités par rapport à un ADC simple (possibilité de relayer les fonctionnalités PTZ, mutualisation des flux, etc.) ;

- DVR (Digital Video Recorder) : il a pour rôle d’enregistrer des flux vidéos venant de caméras analogiques ou numériques sur des disques durs (généralement, jusqu’à un maximum de 64 connexions) ;

- NVS (Network Video Server) : de la même manière que le NVR, il s’occupe de l’enregistrement des flux IP. Mais celui-ci n’est pas déployé avec un VMS, c’est à l’utilisateur de l’installer. Il s’agit généralement d’un ordinateur classique ;

- NVR (Network Video Recorder) : il s’occupe de l’enregistrement de flux venant de caméras IP. On retrouve dans cette appliance un VMS, permettant la sauvegarde et l’administration des caméras, et assurant l’envoi des flux vidéos vers plusieurs clients ainsi que l’agrégation de flux multiples grâce à des fonctions de matrice d’affichage.

Le schéma (Figure 1) montre cinq topologies différentes d’un réseau de vidéoprotection utilisant les équipements décrits précédemment. Chacune de ces topologies peut être autosuffisante dans le cas de petites infrastructures de CCTV.

Figure 1

3.3 Superviseur et hyperviseur

La supervision et l’hypervision permettent d’agréger les systèmes de sûreté (CCTV, Contrôle d’Accès, Sécurité Incendie) d’une infrastructure. Ce sont souvent des clients lourds très coûteux installés sur des machines physiques.

Le système de vidéoprotection n’est souvent qu’une sous-partie du réseau de sûreté. Chacun de ces sous-systèmes est administré et utilise des équipements de traitement intermédiaire dédiés (ACS, alarme, etc.). Le superviseur est une couche applicative permettant d’agréger tous les équipements, de manière à fédérer les opérations de traitements et l’affichage sur un poste. Il permet de mettre en place des logiques métiers inter-système en corrélant les données venant de plusieurs sous-systèmes, par exemple de braquer une caméra sur une porte qui s’ouvre.

L’hyperviseur est aussi une couche logicielle, qui permet d’agréger et piloter les superviseurs. Dans la pratique, il existe un superviseur par zone et type de site (site principal et sites déportés assurant une même fonction dans une région donnée), et un hyperviseur au niveau de gestion supérieur, permettant de concentrer en un point les informations issues des différents superviseurs.

De par les interdépendances liées aux asservissements entre équipements, il existe une forte porosité au sein des réseaux de sûreté. Ces interconnexions sont un risque important, surtout quand certains des équipements sont en zone non maîtrisée, à l’image des caméras CCTV ou encore des portiers d’interphonie sous IP, pouvant par exemple être situés à l’extérieur de l’enceinte protégée du site.

Malgré les efforts faits pour normaliser les protocoles et les API des équipements, les éléments composants un réseau de vidéoprotection sont nombreux et utilisent des technologies variées et souvent obsolètes. Ces réseaux font face à une problématique de forte disparité des niveaux de sécurité entre les équipements qui les composent, ainsi qu’à un manque de culture sécurité des Systèmes d’Information par ceux qui les mettent en œuvre. La combinaison de ces facteurs multiplie d’autant les vulnérabilités auxquelles ces réseaux sont soumis.

3.4 Postes d’exploitation

Les postes d’exploitation permettent de consulter les vidéos stockées ou diffusées en temps réel. Il peut s’agir d’un superviseur, d’un hyperviseur ou d’un poste dédié muni d’un client lourd ou non (il utilise alors l’interface web d’un autre équipement).

3.5 Stockage

En raison du grand volume de données générées par les caméras, il est parfois nécessaire de recourir à des serveurs de stockage (des NAS par exemple) qui sont alors connectés au réseau de CCTV.

3.6 Protocoles

Dans le but d’homogénéiser les communications entre les produits de sûreté basés sur IP, ONVIF (Open Network Video Interface Forum) [4], un organisme à but non lucratif, s’est distingué. Son objectif est d’établir un standard international pour les communications entre les appareils de sûreté comme les systèmes de gestion vidéo, les caméras réseau et les Systèmes de Contrôle d’Accès (ACS). Cette norme permet aujourd’hui de faire fonctionner ensemble et de concert ces différents produits, quel qu’en soit le fabricant. ONVIF désigne aussi par extension l’ensemble des protocoles normalisés par cet organisme.

L’un des protocoles majeurs normalisés par ONVIF est le Real Time Streaming Protocol (RTSP). Il permet de contrôler la caméra sur ses fonctions de streaming audio et vidéo en envoyant des commandes et assurant l’authentification d’accès au service. C’est un protocole de signalisation, sur le port TCP 554. Il ne transporte pas les données, il permet d’établir, à la suite d’une authentification optionnelle (généralement login/password), un port et un numéro de session, qui seront utilisés par Real-Time Transport Protocol (RTP) pour faire transiter le flux média. La plage de négociation du port RTP n’est pas prédictible, ce qui rend difficile la configuration systématique des éventuels équipements de filtrage.

Les commandes principales sont les suivantes :

- SETUP : demande au serveur des ressources nécessaires à l’établissement de la connexion (négociation des ports, etc.) ;

- PLAY : demande au serveur la transmission des données en flux RTP selon les paramètres de SETUP ;

- RECORD : le client débute l’enregistrement selon les paramètres définis ;

- PAUSE : arrêt temporaire du flux RTP ;

- TEARDOWN : arrêt définitif de la session RTSP.

RTP peut être couplé à un protocole de retour d’informations (Real-time Transport Control Protocol), permettant la remontée d’erreurs ou de caractéristiques liées au débit du canal. Ce protocole de communication respecte des contraintes liées au rendu en temps réel, notamment la continuité du flux vidéo. Il est utilisé, à l’accoutumée, en mode unicast pour des services de voix sur IP ou de streaming (vidéo, audio) en UDP.

Il peut être utilisé en mode multicast, mais cette configuration nécessite d’être établie sur les routeurs entre la caméra et les clients.

L’image suivante présente une négociation de session RTSP.

Figure 2

Ce protocole étant non chiffré, les attaques classiques peuvent être imaginées : interception de l’identifiant de session, envoi d’ordres (TEARDOWN ou PAUSE par exemple pour arrêter l’envoi du flux), réécriture à la volée des URL et numéros de ports RTP pour la capture ou la modification du flux.

Par ailleurs, l’organisme ONVIF impose l’utilisation de web services permettant de recevoir et d’envoyer des commandes Pan Tilt Zoom (Panoramique, Incliner, Zoomer). Ces commandes permettent de contrôler le mouvement physique des caméras par le réseau.

Malgré les efforts faits pour normaliser les protocoles et les API des équipements, les éléments composant un réseau de vidéoprotection sont nombreux et utilisent des technologies variées et souvent obsolètes. Ces réseaux font face à une problématique de forte disparité des niveaux de sécurité entre les équipements qui les composent, ainsi qu’à un manque de culture sécurité des Systèmes d’Information par ceux qui les mettent en œuvre. La combinaison de ces facteurs multiplie d’autant les vulnérabilités auxquelles ces réseaux sont soumis.

4. Architecture

Les réseaux de CCTV impliquent par nature une grande diversité d’équipements, et d’environnements d’installation. Or s’il existe un fort contraste matériel et environnemental parmi les équipements, l’aspect numérique reste inchangé et introduit des points de faiblesse de cybersécurité.

4.1 Description d’une installation type

Une installation type est constituée d’un site principal relié à quelques sites déportés. Le but de l’installation est de couvrir toutes les zones à risque du site (que celle-ci soit à l’intérieur ou à l’extérieur de la zone à protéger).

Au cœur du site principal se trouve un superviseur permettant de concentrer les informations de tous les systèmes de sûreté déployés. La plupart des flux de sûreté sont originaires ou à destination de cet équipement. C’est pourquoi il est très attractif pour un attaquant. En effet, en plus de réunir les informations relatives aux systèmes de sûreté, il peut servir de pivot vers le réseau bureautique ou vers un LAN d’administration.

Le superviseur est connecté aux équipements intermédiaires de traitement du flux vidéo, eux-mêmes connectés :

- à d’autres équipements intermédiaires : cela permet de créer des points de concentration, souvent définis par la création de zones géographiques de surveillance ;

- à des caméras : cela permet d’agréger les flux d’un secteur.

Chaque équipement intermédiaire est situé dans une zone périmétrique de surveillance (parking, rue, entrepôt, point de passage, etc.). Il permet d’agréger les flux selon le découpage géographique du site. C’est pourquoi il est courant de relier ces équipements entre eux. Cette pratique permet le découpage fractal en zones et sous-zones.

Les caméras sont placées sur site en fonction des lieux à observer. Ces espaces peuvent être en dehors du périmètre maîtrisé (c.-à-d. : en extérieur, en dehors de la zone avec contrôle d’accès). Elles sont majoritairement numériques et sur IP. Lorsque ce n’est pas le cas (pour des raisons d’installation historiques), des boîtiers de conversion vers IP sont utilisés. Par conséquent, elles sont accessibles et exposent les réseaux auxquels elles sont connectées, à un attaquant extérieur. Ce dernier peut alors, à l’aide d’un escabeau et d’un tournevis, se connecter au réseau CCTV, par le câble Ethernet et commencer son attaque.

Le positionnement des équipements de terrain étant issu d’une réflexion autour des problématiques de sûreté d’un site, les schémas réseaux en découlant sont parfois chaotiques et les points de connexion physiquement accessibles depuis l’extérieur.

Figure 3

4.2 Un schéma réseau qui s’appuie sur la répartition physique

L’architecture d’un réseau de vidéosurveillance contient des points d’entrées très disparates et des équipements pouvant embarquer des technologies obsolètes. La figure 4 montre l’installation réseau découlant de l’architecture physique proposée précédemment. Il y apparaît notamment les liens éventuels vers d’autres réseaux (flèche en pointillées marron). Par ailleurs, le lien vers un hyperviseur pilotant de nombreux sites y est représenté. Ce type de liaison existe pour de très grands projets, mais n’est pas répandu dans les infrastructures classiques.

Figure 4

4.3 Interconnexions

Nous pouvons comparer les réseaux de systèmes de sûreté (dont les CCTV) avec les Systèmes de Contrôle et d’Acquisition de Données (SCADA). En effet, les équipements qui les composent embarquent des implémentations souvent vulnérables de protocoles réseau et d’applicatifs métiers. Ces systèmes et les réseaux qui les interconnectent ont très longtemps été distincts logiquement et physiquement des réseaux bureautiques et industriels. Désormais, ils sont souvent interconnectés avec les autres SI. Ces interconnexions sont à des fins de corrélation, d’acquisition de données et de gestion-administration. Elles sont devenues nécessaires au bon fonctionnement du système de sûreté. Ainsi, la CCTV pourra envoyer des alertes par traps SNMP vers des serveurs de supervision situés côté bureautique, envoyer des mails au travers de passerelles SMTP, permettre un accès de type Remote Desktop. Ces interconnexions sont souvent peu sécurisées, avec des ponts de type dual homing où les équipements CCTV devant échanger avec le réseau bureautique sont dotés de cartes Ethernet connectées à ce dernier.

4.4 Problématique des sites déportés

Souvent éloignés du site principal, les sites déportés n’ont pas les mêmes contraintes de sûreté et présentent généralement des dispositifs moins robustes. Ils sont aussi moins sujets aux faveurs financières que les sites principaux. Le matériel installé s’y limite d’ordinaire à quelques caméras et contrôles d’accès, voire à un superviseur dont les routines de maintenance ont été allégées.

Ces équipements sont néanmoins reliés au reste du réseau CCTV, généralement sans filtrage, les rendant sensibles d’un point de vue sécurité informatique. En effet, l’accès au réseau du site déporté permettra un accès au réseau CCTV général. Contrairement aux considérations physiques, dans lesquelles un site déporté est généralement de moindre valeur, il peut être critique d’un point de vue cybersécurité.

Par exemple, pour assurer la surveillance d’un accès à un site protégé, des caméras peuvent être installées en milieu urbain. La rue est alors considérée comme un site déporté. Ces caméras sont placées sur des mâts, dans lesquels se trouve un câble Ethernet relié à un NVR ou un switch, placés dans un boîtier technique dédié au site déporté. La liaison avec le site central sera assurée par une fibre, permettant l’interconnexion vers le superviseur central. La caméra et le NVR constituent alors des points d’entrée privilégiés sur le réseau.

5. Acteurs

Si les CCTV sont des systèmes à forts enjeux de cybersécurité, il est important d’identifier qui, dans la chaîne des intervenants, est le plus à même de formaliser et de vérifier la conformité des exigences et bonnes pratiques associées. Comme pour la plupart des infrastructures, cinq acteurs peuvent être identifiés : le maître d’ouvrage, le maître d’œuvre, l’intégrateur, le chargé de maintenance et l’exploitant.

Le maître d’ouvrage, habituellement les moyens généraux d’une entreprise ou le propriétaire du bâtiment, est celui qui, suite à une analyse de risque, commande le système de CCTV et en est le propriétaire. Il peut être accompagné d’une Assistance à Maîtrise d’Ouvrage pour la définition du besoin et des contraintes, notamment de sécurité.

Le maître d’œuvre est le spécialiste de la sûreté qui va répondre au besoin du maître d’ouvrage par une solution clé en main. Il connaît et maîtrise les enjeux et les législations liés au déploiement de CCTV. Il est en charge de prendre en compte le besoin du maître d’ouvrage pour rédiger le cahier des charges et, entre autres, préciser les zones d’installation du système. Tenant la relation contractuelle avec ses sous-traitants, il leur impose les contraintes de sécurité informatique, dictées ou non par le maître d’ouvrage. Il intervient de la conception à la livraison du système.

L’intégrateur propose et maîtrise le matériel et les technologies de CCTV qui seront installés. Il est aussi responsable du déploiement et de l’installation du système. Ses préoccupations de sécurité informatique sont généralement celles imposées par le cahier des charges.

Le prestataire en charge de la maintenance interviendra sur le système en cas de problème une fois celui-ci accepté à l’issue de la recette. C’est aussi lui qui est responsable de son entretien. Il déploiera notamment les correctifs et mises à jour logiciels, si ces derniers ont été précisés dans le cahier des charges de maintenance. Par ailleurs, il peut imposer des contraintes de maintenance à distance, impliquant une connexion de la CCTV avec l’extérieur. Il est souvent peu alerte de la sécurité informatique, mais très préoccupé par la disponibilité opérationnelle du système.

L’exploitant peut être le maître d’ouvrage ou un prestataire. C’est lui qui utilisera au quotidien la CCTV. Il n’est souvent ni sensibilisé ni formé à la sécurité informatique. Son rôle est d’exploiter la CCTV (regarder les images fournies par les caméras) et éventuellement intervenir sur le terrain en cas de levée d’alarme. Sa préoccupation principale est la disponibilité opérationnelle du système, souvent au détriment de la sécurité informatique.

6. Recommandations

La cybersécurité doit être intégrée à l’ensemble du cycle de vie des projets de sûreté, de la conception à leur exploitation et leur maintenance. De ce fait, il est important que maître d’ouvrage et maître d’œuvre soient sensibilisés aux risques de cybersécurité sur la CCTV. C’est par leurs autorités que connaissance des risques et bonnes pratiques de sécurité seront diffusées et contractualisées à l’ensemble des acteurs.

Lors de la phase de conception, les stratégies de sécurité applicables à la CCTV reposent sur la conception d’architectures limitant les risques, ainsi que le choix d’équipements et de configurations sécurisées. En termes d’architecture et de configuration, les règles suivantes pourront être appliquées :

- Cloisonnement des systèmes de CCTV vis-à-vis des autres réseaux ;

- Maîtrise des points de connexion au réseau, par exemple en durcissant les configurations des équipements (MAC Locking, authentification 802.1X par certificats, MACsec, etc.) pour se prémunir des attaques classiques ;

- Zoning et ségrégation interne des réseaux de CCTV, notamment entre zones intérieures et extérieures. Il est recommandé, par exemple, d’implanter un pare-feu devant chaque niveau agrégeant des flux des niveaux inférieurs, afin de limiter le trafic aux flux effectivement attendus de ces niveaux inférieurs ;

- Configuration sécurisée des équipements, avec désactivation des fonctions non utilisées, changement des mots de passe par défaut, mise à jour des microgiciels au moment des recettes.

Architecture et configuration sécurisées apporteront une réduction des risques qu’il conviendra de pérenniser lors de la phase de maintenance. Si l’application des patchs peut s’avérer complexe, la stabilité, le caractère peu évoluant des systèmes CCTV se prêtent particulièrement bien à la détection d’incidents, y compris sur des signaux faibles : trends réseaux, ports de switchs passant down/up. La prise en compte rapide de ces événements pourra s’accompagner de levées de doutes par examen des enregistrements CCTV.

Conclusion

Les systèmes CCTV, tout comme les SCADA, sont devenus des systèmes hybrides. Ils incluent aujourd’hui les enjeux de deux mondes qui ne s’étaient pas croisés. Ces métissages technologiques créent de nouveaux risques qu’il convient de maîtriser. Il ne tient qu’à nous, acteurs de la sûreté et la cybersécurité, d’engager les démarches pour une convergence des savoirs. C’est à cette seule condition que nous pourrons introduire la cybersécurité comme composante inhérente à la conception des systèmes de sûreté.

Remerciements

Cet article a été rédigé avec la contribution des pôles ingénierie de sûreté/sécurité physique et cybersécurité de Risk&Co Solutions.

Références

[1] LPM, https://fr.wikipedia.org/wiki/Loi_de_programmation_militaire, Wikipédia

[2] BusyBox, https://fr.wikipedia.org/wiki/BusyBox, Wikipédia.

[3] Dropbear, https://en.wikipedia.org/wiki/Dropbear_(software), Wikipédia.

[4] Onvif, https://www.onvif.org.