[EXCLUSIF] L’été 2017 fut, pour la France le deuxième plus chaud depuis 1990. La preuve, même pour les esprits les plus obtus, que le réchauffement climatique est une réalité et que, sans effort concertés de notre part, les dégâts seront conséquents. Toutefois, je ne suis pas ici pour vous parler de météo, mais de données. Plus précisément, la croissance exponentielle des données non-structurées, et les difficultés qui nous attendent si, tout comme face au réchauffement climatique, beaucoup continuent d’ignorer le problème.
Car l’augmentation de la quantité de données non structurées présentes dans le monde a été observée par tous. Les conclusions sont unanimes : le volume total de données en 2020 atteindra entre 40 à 50 zettaoctets, et, plus intéressant, entre 80 et 90 % seront des données non structurées.
Les sources d’une telle croissance
Les données non structurées viennent de multiples sources, comme les émissions de télévision, ou les films HD 4K et photos que nous réalisons avec nos smartphones. Elles sont même universelles. Tous les jours, des millions de machines et capteurs appartenant à des domaines aussi variés que la recherche, l’ingénierie, la santé, la finance ou l’exploration géospatiale, génèrent de colossaux volumes de données. A titre d’exemple, rien que la vidéosurveillance produit, tous les jours, un exaoctet de données non structurées, à cause des résolutions de caméra et des durées de rétention de plus en plus longues en fonction des pays.
Les ensembles de données ont en commun plusieurs caractéristiques, à voir :
- Ils sont composés de fichiers de grande taille
- Ils sont incompressibles (des techniques telles que la déduplication ont peu d’effets sur la réduction des données)
- Ils sont précieux pour l’entreprise, le département ou les utilisateurs qui ont créé les données
- Ils sont stockés pendant plusieurs années
Réchauffement des données et climatique : quel point commun ?
Quand bien même les entreprises produisent chaque jour plus de données non structurées, rien n’est fait pour s’adapter et changer ses habitudes face à cette masse sans cesse croissante. Pire, beaucoup continuent de gérer et stocker leurs jeux de données non structurées via des méthodes de stockage traditionnelles, c’est-à-dire, sur disque.
Une technique qui montre de plus en plus ses limites face à des volumes d’information toujours plus croissants. Les solutions habituelles de sauvegarde ne sont plus gage de sûreté dans le monde d’aujourd’hui, d’autant plus que traiter et transférer rapidement des données sur un système de stockage coute de plus en plus cher.
L’exceptionnelle quantité de données générée exige que nous réinventions nos habitudes de stockage et de gestion.
Quand les données froides se réchauffent
Surtout que de nouveaux phénomènes ont lieu de plus en plus fréquemment dans plusieurs secteurs d’activité. Si auparavant, les jeux de données générés étaient traités, puis archivés, petit à petit, les entreprises se rendent compte qu’elles peuvent encore tirer parti de ces données archivées, dites « froides »:
- Les contenus créés pour le cinéma ou la télévision (film, documentaire, rencontre sportive…) peuvent être réutilisés et distribués (rediffusions)
- Les contenus de vidéosurveillance peuvent être utilisés pour étudier les comportements d’achats
- Les scientifiques analysent les données antérieures et font avancer la recherche dans leurs domaines respectifs
- Les fabricants de voiture autonomes utilisent les données générées par la vidéosurveillance et les capteurs afin d’améliorer la sécurité et les performances des véhicules
Les exemples sont légions, mais illustrent bien la chose : les données « froides » gagnent en valeur au fil du temps, et démontrent une utilité qui n’était pas forcément évidente au moment de leur production. En clair, elles se « réchauffent ». Et le réchauffement de ces données implique une nouvelle approche du stockage. Car désormais, des données archivées peuvent se révéler d’un seul coup primordiales. Tout doit être accessible.
C’est pour cela qu’il nous faut agir et surtout, faire preuve d’imagination. Se contenter d’augmenter la capacité de stockage n’est qu’une solution de facilité qui, en plus d’augmenter exponentiellement son coût, se révèlera plus pénalisante qu’autre chose sur le long terme.
Le workflow de données, la solution idéale
La réponse à ce problème est celle du workflow de données. Ce concept, encore neuf dans beaucoup de secteurs, mais déjà utilisé dans d’autre, se démarque notamment par son intuitivité. Le workflow obéit à un schéma très simple : les données, une fois générées ou capturées, sont transférées vers un système de stockage, puis stockées et traitées afin d’atteindre un résultat précis (ce qui demande souvent la collaboration de plusieurs utilisateurs). Une fois ceci fait, les données sont archivées sur le long terme tout en prenant en compte leur réutilisation future.
Ce processus gagne énormément en efficacité si couplé à un système de stockage conçu pour s’adapter aux spécificités de chaque workflow de données. En effet, le stockage pour workflow est capable de proposer des capacités d’ingestions hautes performances à la demande. Une autre caractéristique : la possibilité de partager les données sur le réseau et pouvoir les transférer vers d’autres niveaux de stockages (comme la bande, plus économique), tout en laissant la possibilité pour les utilisateurs et applications d’y accéder lorsque nécessaire. C’est, entre autres cette possibilité qui permet aux entreprises de mieux exploiter les données archivées et ce, à moindre coût. Car au final, le stockage de données sur workflow, plus économique que le stockage sur disque, et permet donc une bien meilleure utilisation des données.
Intérêt écologique
Enfin, recourir à un système de stockage multiniveau est un beau geste écologique. En conservant les données sur un système de stockage ecoénergétique et économique comme la bande, vous participez à la lutte contre le réchauffement climatique. De quoi faire d’une pierre deux coups.