Tout comme le climat, les données aussi se réchauffent

[EXCLUSIF] L’été 2017 fut, pour la France le deuxième plus chaud depuis 1990. La preuve, même pour les esprits les plus obtus, que le réchauffement climatique est une réalité et que, sans effort concertés de notre part, les dégâts seront conséquents. Toutefois, je ne suis pas ici pour vous parler de météo, mais de données. Plus précisément, la croissance exponentielle des données non-structurées, et les difficultés qui nous attendent si, tout comme face au réchauffement climatique, beaucoup continuent d’ignorer le problème.

Gabriel Chaher, Vice-Président Global Market Development chez Quantum

Car l’augmentation de la quantité de données non structurées présentes dans le monde a été observée par tous. Les conclusions sont unanimes : le volume total de données en 2020 atteindra entre 40 à 50 zettaoctets, et, plus intéressant, entre 80 et 90 % seront des données non structurées.

Les sources d’une telle croissance

Les données non structurées viennent de multiples sources, comme les émissions de télévision, ou les films HD 4K et photos que nous réalisons avec nos smartphones. Elles sont même universelles. Tous les jours, des millions de machines et capteurs appartenant à des domaines aussi variés que la recherche, l’ingénierie, la santé, la finance ou l’exploration géospatiale, génèrent de colossaux volumes de données. A titre d’exemple, rien que la vidéosurveillance produit, tous les jours, un exaoctet de données non structurées, à cause des résolutions de caméra et des durées de rétention de plus en plus longues en fonction des pays.

Les ensembles de données ont en commun plusieurs caractéristiques, à voir :

Ils sont composés de fichiers de grande taille
Ils sont incompressibles (des techniques telles que la déduplication ont peu d’effets sur la réduction des données)
Ils sont précieux pour l’entreprise, le département ou les utilisateurs qui ont créé les données
Ils sont stockés pendant plusieurs années

Réchauffement des données et climatique : quel point commun ?

Quand bien même les entreprises produisent chaque jour plus de données non structurées, rien n’est fait pour s’adapter et changer ses habitudes face à cette masse sans cesse croissante. Pire, beaucoup continuent de gérer et stocker leurs jeux de données non structurées via des méthodes de stockage traditionnelles, c’est-à-dire, sur disque.

Une technique qui montre de plus en plus ses limites face à des volumes d’information toujours plus croissants. Les solutions habituelles de sauvegarde ne sont plus gage de sûreté dans le monde d’aujourd’hui, d’autant plus que traiter et transférer rapidement des données sur un système de stockage coute de plus en plus cher.

L’exceptionnelle quantité de données générée exige que nous réinventions nos habitudes de stockage et de gestion.

Quand les données froides se réchauffent

Surtout que de nouveaux phénomènes ont lieu de plus en plus fréquemment dans plusieurs secteurs d’activité. Si auparavant, les jeux de données générés étaient traités, puis archivés, petit à petit, les entreprises se rendent compte qu’elles peuvent encore tirer parti de ces données archivées, dites « froides »:

Les contenus créés pour le cinéma ou la télévision (film, documentaire, rencontre sportive…) peuvent être réutilisés et distribués (rediffusions)
Les contenus de vidéosurveillance peuvent être utilisés pour étudier les comportements d’achats
Les scientifiques analysent les données antérieures et font avancer la recherche dans leurs domaines respectifs
Les fabricants de voiture autonomes utilisent les données générées par la vidéosurveillance et les capteurs afin d’améliorer la sécurité et les performances des véhicules

Les exemples sont légions, mais illustrent bien la chose : les données « froides » gagnent en valeur au fil du temps, et démontrent une utilité qui n’était pas forcément évidente au moment de leur production. En clair, elles se « réchauffent ». Et le réchauffement de ces données implique une nouvelle approche du stockage. Car désormais, des données archivées peuvent se révéler d’un seul coup primordiales. Tout doit être accessible.

C’est pour cela qu’il nous faut agir et surtout, faire preuve d’imagination. Se contenter d’augmenter la capacité de stockage n’est qu’une solution de facilité qui, en plus d’augmenter exponentiellement son coût, se révèlera plus pénalisante qu’autre chose sur le long terme.

Le workflow de données, la solution idéale

La réponse à ce problème est celle du workflow de données. Ce concept, encore neuf dans beaucoup de secteurs, mais déjà utilisé dans d’autre, se démarque notamment par son intuitivité. Le workflow obéit à un schéma très simple : les données, une fois générées ou capturées, sont transférées vers un système de stockage, puis stockées et traitées afin d’atteindre un résultat précis (ce qui demande souvent la collaboration de plusieurs utilisateurs). Une fois ceci fait, les données sont archivées sur le long terme tout en prenant en compte leur réutilisation future.

Ce processus gagne énormément en efficacité si couplé à un système de stockage conçu pour s’adapter aux spécificités de chaque workflow de données. En effet, le stockage pour workflow est capable de proposer des capacités d’ingestions hautes performances à la demande. Une autre caractéristique : la possibilité de partager les données sur le réseau et pouvoir les transférer vers d’autres niveaux de stockages (comme la bande, plus économique), tout en laissant la possibilité pour les utilisateurs et applications d’y accéder lorsque nécessaire. C’est, entre autres cette possibilité qui permet aux entreprises de mieux exploiter les données archivées et ce, à moindre coût. Car au final, le stockage de données sur workflow, plus économique que le stockage sur disque, et permet donc une bien meilleure utilisation des données.

Intérêt écologique

Enfin, recourir à un système de stockage multiniveau est un beau geste écologique. En conservant les données sur un système de stockage ecoénergétique et économique comme la bande, vous participez à la lutte contre le réchauffement climatique. De quoi faire d’une pierre deux coups.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu