Comment sauvegarder les données Big Data ?

La plupart des PME sont encore novices en ce qui concerne le Big Data. Si ces dernières veulent expérimenter sans risque toutes les idées et options possibles, elles doivent avant tout être en mesure de protéger l’ensemble de leurs données. Mais contrairement à ce que l’on pourrait penser, protéger le Big Data est loin d’être anodin.

Daniel de Prezzo, Head of Technologies Southern Europe chez Veritas Technologies

Le Big Data promet aux petites et moyennes entreprises de nouvelles perspectives pour les aider à garder une longueur d’avance sur leurs concurrents. La seule idée qu’elles puissent en tirer des bénéfices est aujourd’hui suffisante pour les convaincre de se lancer dans l’aventure. Ces dernières peuvent vite profiter de pratiques efficaces et d’approches structurées et reconnues dans le secteur.

Il est cependant important de noter que si des erreurs ou des défaillances peuvent venir corrompre les données, les entreprises se doivent de pouvoir revenir à une version ultérieure pour continuer les analyses. Cette action doit d’ailleurs être indépendante de l’infrastructure technique sous-jacente, et les risques restent similaires, qu’une grande société d’analyse de données s’appuie uniquement sur les services des plus grands fournisseurs de cloud, qu’elle associe son propre matériel et logiciel à des services cloud, ou qu’elle manipule les éléments les plus importants sur sa propre infrastructure.

L’importance de la sauvegarde de données ?

Le plus grand danger ne vient pas des plates-formes, des services ou des infrastructures, les développeurs d’applications ainsi que les fournisseurs de services cloud ayant mis en œuvre nombre de méthodes de maintenance préventive au fil des années, qui leur permettent de garantir la meilleure disponibilité de leurs modules Big Data. Ici, c’est le facteur humain qui a la plus grande incidence. En effet, dans une étude récente, Kroll Ontrack, une entreprise de récupération de données, pointe les erreurs humaines comme étant la cause la plus importante de perte de données (84 %) : un clic de souris imprudent ou une mauvaise configuration du système et les données essentielles de l’entreprise s’envolent.

Les data analysts veulent pouvoir travailler les données avec de nouveaux algorithmes, afin d’avoir un regard neuf sur l’information et, idéalement, acquérir de nouvelles connaissances. Avec la multitude d’étapes nécessaires à l’analyse, toutes sortes d’erreurs peuvent survenir à tout moment et ainsi corrompre la base de données, ou simplement produire des résultats inutiles.

Avec un manque de sauvegardes, les conséquences peuvent être considérables. Par exemple, une entreprise du secteur de la distribution a dû re-effectuer un inventaire complet de la situation dans toutes ses filiales, les entrées individuelles ayant été corrompues dans l’environnement Big Data. Personne ne pouvait dire avec certitude quelles valeurs étaient exactes et l’ensemble des données ont dû être à nouveau passées en revue. En conséquence, la société a rapidement décidé de sauvegarder son Big Data.

Les autres risques sont probablement déjà bien connus pour d’autres usages. Des parties indispensables de l’infrastructure, telles que la base de données, peuvent défaillir ou être piratées. Les développeurs d’applications lancent de nouvelles versions et fonctionnalités sur le marché. Durant les mises à jour, des problèmes comme des erreurs peuvent se produire, et rendre inopérant le module Big Data. Dans tous les cas, il est judicieux de revenir rapidement à une version précédente pour pouvoir reprendre son analyse. Enfin, un data analyst peut vouloir sauvegarder et archiver l’état particulier d’une analyse importante afin de pouvoir la réexaminer plus tard.

Bienvenue dans l’univers Big Data

La plupart des PME investissent dans un module d’application de grands fournisseurs de services cloud pour acquérir leur première expérience Big Data, sans avoir à engager beaucoup de ressources. Qu’il s’agisse d’Amazon, d’IBM, de Google ou de Microsoft, chacun des fournisseurs de services permet aux entreprises de commencer avec des investissements contrôlés et de choisir un modèle purement basé dans le cloud.

Les fournisseurs eux-mêmes agissent selon un modèle de responsabilité partagée, dans lequel l’entreprise a sa part de responsabilité pour les données et leur conformité. En cas de corruption ou de perte de données, la responsabilité de la reconstruction incombe à l’entreprise elle-même. L’étude Truth in Cloud de Veritas l’a clairement démontré, en effet si les fournisseurs proposent souvent aux entreprises des méthodes de protection intégrées aux modules d’application en tant que fonctionnalité, chaque fournisseur de cloud utilise une approche différente avec ses propres stratégies et consoles, incompatibles avec les autres environnements. Ainsi, si une entreprise utilise l’analyse Big Data dans le cloud provenant de différents fournisseurs, les équipes cloud devront composer avec les différentes technologies et comprendre ce qui se passera réellement lorsqu’ils restaureront ces données.

Sauvegarder, oui mais comment ?

Qu’elles soient purement basées dans le cloud ou en usage partagé, ou qu’elles soient situées dans le data center, chacune de ces approches du Big Data sont très dynamiques, la plupart du temps distribuées, volumineuses, virtualisées et poussent rapidement les systèmes de sauvegarde traditionnels à leurs limites.

Si le fournisseur de sauvegarde domine toutes les plates-formes modernes et anciennes, les charges de travail et les diverses grandes architectures de données, l’entreprise peut couvrir et contrôler de manière centralisée toutes les exigences de sauvegarde avec un seul logiciel, ce qui se reflétera massivement dans les coûts de fonctionnement de la sauvegarde. Dans l’ensemble, ces fonctionnalités sont essentielles pour couvrir les grands environnements de données d’aujourd’hui et en même temps pour garantir à l’entreprise que le concept de sauvegarde est à l’épreuve du temps.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Comment sauvegarder les données Big Data ?

L’importance de la sauvegarde de données ?

Bienvenue dans l’univers Big Data

Sauvegarder, oui mais comment ?

Suggestion de contenus