L’avènement du Big Data amène des questionnements et des doutes concernant la sécurité de ce type d’environnement. Associer sécurité avec Big Data peut avoir 2 objectifs distincts mais tout aussi importants :
- Comment protéger de manière efficace les données présentes dans un environnement / système Big Data
- Comment utiliser la puissance annoncée du Big Data pour être plus efficace dans la prévention d’évènements à risques mettant en jeu la sécurité.
Devant tant de discours, de présentations, d’articles, d’évènements évoquant le Big Data, on est en droit de se poser une question simple :
» In fine, qu’est-ce que le Big Data ? «
Il est particulièrement difficile d’obtenir une réponse claire à cette question. En fonction des spécialistes rencontrés, on est confrontés à des réponses très différentes tant sur la manière de faire ou d’appréhender le concept, que sur l’utilisation des termes Big Data eux-mêmes (bref ce que l’on pensait être du Big Data n’en est pas forcément…).
Le coup de grâce arrive quand l’interlocuteur utilise des termes aussi éloignés les uns des autres que cluster, algorithmes ou encore scientifique de la donnée (c’est un nouveau métier).
Comme souvent, pour comprendre il faut revenir en arrière, nul besoin pour cela de jouer les anthropologues, c’est bien un des avantages du monde 2.0 qui concentre le temps et raccourcit les distances. A bien y regarder tout s’inscrit dans un mouvement de quête de nouveaux services quelle qu’en soit la nature. Ce sont les grands acteurs de l’Internet qui furent à l’origine du concept en répondant à de nouvelles problématiques auxquelles ils furent confrontés dans leur développement. Ils ont dû savoir maîtriser de nouveaux enjeux que l’on nomme communément les 3 V que sont :
- le Volume (un très gros volume de données à stocker),
- la Velocité (le besoin de traitement rapide des données qui évoluent en permanence et très vite)
- et enfin la Variété (une très grande variété de différentes sources et types de données à gérer).
Le tout confère une richesse fondamentale au concept de Big Data et à ses traitements associés.
Pour répondre aux différents cas d’usages sécurité ces acteurs ont eu à imaginer et créer des produits innovants et performants. Beaucoup de ces solutions internes ont été mises en Open Source et sont à l’origine de solutions pouvant répondre à des problématiques de sécurité comme Apache Eagle d’origine Ebay (Permet de monitorer sous l’aspect sécurité un cluster Hadoop), Apache Nifi d’origine NSA (échange et traitement de données en temps réel disposant d’une grande bibliothèque de modules sources de données de type de fichiers, protocoles, système de fichiers, base de données, etc.), Apache Metron d’origine Cisco (framework d’analyse de données orienté sécurité). On peut également citer Scumblr (synchronisation régulière de sources d’informations sécurité et gestion des vulnérabilités) chez Netflix.
Cet empilement de nouveaux produits nécessite une réflexion structurée et on commence à voir apparaître des modèles conceptuels d’architecture Big Data comme celui présenté par l’ENISA qui permet de mieux positionner les solutions.
Les niveaux Data Sources et Integration process sont à analyser avec une grande attention en tenant compte notamment des contextes réglementaires et légaux particuliers (l’exemple des données personnelles en est une bonne illustration avec l’entrée en vigueur du RGPD en Europe en mai 2018 versus le Patriot Act au US).
Utiliser la puissance d’un environnement Big Data pour améliorer la sécurité et la prévention des événements semble prometteur.
Cependant pour que cette approche soit efficace, il est nécessaire de prendre en compte les éléments suivants :
- Mise à disposition de beaucoup de sources de données au sein de l’entreprise (certains propriétaires des données auront des réticences à partager leurs données faisant porter un risque d’échec sur l’efficacité des traitements)
- Maturité des solutions dites « Big Data » (beaucoup de mises à jour régulières) et donc disposer d’une gestion efficace des vulnérabilités éventuelles
- Bonne ségrégation des rôles (beaucoup de données potentiellement sensibles au même endroit)
- Bonne maîtrise des accès, des traitements ou événements et des sorties de données (beaucoup de données potentiellement sensibles au même endroit) et donc une bonne maitrise des identités et des acteurs associée à une prévention des fuites d’information.
- Beaucoup d’acteurs et de cas d’usages à coordonner (dans le cas où il y a concentration des données dans un seul espace partagé Big Data pour l’ensemble de l’entreprise)
Le Big Data fournit un grand nombre de données à fortes valeurs économiques mais aussi métier. Le métier sécurité n’échappe pas à la règle.
Avec le Big data on doit pouvoir faire de la véritable analyse comportementale voire de la lutte antifraude de qualité. Il reste beaucoup de chose à créer dans ce domaine.