Cet article a été publié originellement sur mydatacompany.fr
Au fil du temps, l’e-commerçant Cdiscount a multiplié les systèmes pour gérer ses données. Ces plateformes atteignent leurs limites et l’entreprise migre donc sur une plateforme unique hébergée dans le cloud.
Le volume de données connaît une explosion. Il atteindra ainsi 143 zettaoctets d’ici 2024, enregistrant une croissance annuelle de 26%. Les entreprises stockeront à elles seules 53% de ces données d’après IDC. Pour accompagner leurs usages des données et la hausse constante de la volumétrie, les organisations ont souvent empilé différents systèmes. C’est le cas par exemple chez le numéro un français du e-commerce.
Empilement de plateformes Data et complexité
Cdiscount a ainsi débuté avec un entrepôt de données « traditionnel ». Toutefois, témoigne Thomas Harry, head of data, « assez vite avec l’apparition de nouvelles données, on a multiplié les systèmes. »
Aux côtés de ce système, Cdiscount mettait par exemple sur pied en 2014 une plateforme Big Data sur Hadoop hébergeant désormais 350 To de données. Son objectif était d’intégrer les données plus volumineuses provenant notamment du trafic et du moteur de recherche.
Des SLA complexes à respecter pour les flux critiques
« On se retrouve aujourd’hui avec un écosystème un peu complexe », reconnaît son expert. En outre, dans le but de réaliser des analyses plus poussées, l’entreprise a fini par dupliquer l’information entre ses différentes plateformes.
Outre la volumétrie des données et leur duplication, Cdiscount était confronté à un autre challenge : assurer un bon accès à cette data pour permettre son exploitation. Or, le nombre important d’utilisateurs concurrents sur les plateformes complique la tâche et le respect de SLA sur les flux critiques.
Approche FinOps pour accompagner le passage au cloud
En 2019, l’e-commerçant décide donc de converger vers une plateforme analytics unique. L’idée n’est pas neuve dans l’entreprise. Elle était même déjà au programme de sa stratégie Data 4 ans plus tôt. Les évolutions technologiques et son approche en matière de gouvernance de la donnée rendaient désormais ce scénario possible.
La future plateforme devait cependant répondre à des critères essentiels, outre la scalabilité et l’évolutivité. Il s’agissait ainsi d’offrir une vraie plus-value aux métiers. Chez Cdiscount, les analystes accèdent directement aux bases de données et aux plateformes.
Nécessaire évaluation des coûts du passage au cloud
Ces prérequis orientent rapidement Cdiscount vers des solutions cloud. Celles-ci ne sont pas sans poser quelques questions sur le plan des coûts. Lors de tests poussés, les équipes de la DSI ont donc mené des évaluations pour estimer le coût par requête, par exemple.
« On a déroulé des cas d’usage typiques de chargement de base de données, de requêtes en parallèle et concurrentes, etc. » détaille Thomas Harry. Au final, comme Monoprix, autre marque du groupe Casino, l’e-commerçant fait le choix du datawarehouse dans le cloud de Snowflake, avec un hébergement sur Microsoft Azure.
Ce choix est justifié notamment par la capacité de la solution à allouer de façon très granulaire des ressources de calcul. L’auto-scaling lui permet par exemple de garantir les SLA sur les processus critiques. « Nous pouvons allumer et éteindre en quelques secondes des nouvelles capacités de calcul au fur et à mesure de l’arrivée de nouvelles requêtes » précise le head of data.
Des données rangées au sein de 36 silos
Snowflake embarque en outre des fonctionnalités contribuant à réduire l’effort d’administration. Les ressources peuvent ainsi être allouées aux cas d’usage des métiers. Mais le cloud impose aussi la mise en place d’une démarche FinOps afin de maitriser ses coûts, sur le stockage et surtout le calcul.
En termes de migration, la duplication des données empêche un basculement de type « lift-and-shift ». Le projet est donc l’occasion d’organiser le rangement des données. Les enjeux de data management sont en effet importants pour l’entreprise.
A chaque donnée son data owner
Pour cette organisation, Cdiscount s’appuie sur un log précis de toutes les requêtes et sur une technologie de Data Lineage. La migration mobilise également la communauté des « data owners ». Depuis plus d’un an désormais chez cdiscount, chaque donnée possède son référant, son « owner ».
Sur snowflake, la DSI a donc choisi de découper l’environnement en 36 silos, à ne pas confondre avec des silos techniques, une barrière pour l’exploitation des données. « Les données ne sont pas silotées d’un point de vue technique. C’est requêtable. C’est pour nous un effort de documentation et de clarté sur les données » insiste Thomas Harry.
Des efforts essentiels sur la gestion de la donnée et sa cartographie
Ces silos correspondent ici aux domaines fonctionnels de l’entreprise (logistique, transport, commande…). A chaque silo son référant métier (responsable de l’attribution des droits via AzureAD) et des sous-silos : data lake, smart data, données personnelles, Lab…
Efforts particuliers sur le lineage de la Data
Ce dernier espace est un bac-à-sable pour le métier, accessible en écriture. Il lui permet de mener des expérimentations, de créer de nouveaux indicateurs, et ensuite d’industrialiser dans le data Lake et le smart data.
En septembre, lors du Salon Big Data, la migration vers Snowflake était en cours depuis 6 mois. Le processus était bien engagé, même si le patron de la data reconnaît quelques difficultés. « Nous avions sans doute sous-estimé l’effort sur le data management et en particulier le lineage » concède-t-il.
De même, si Snowflake doit constituer un accélérateur sur la data, son utilisation suppose néanmoins un accompagnement des développeurs. Une nouvelle activité doit également être créée. Elle porte sur la gouvernance de la plateforme et l’évaluation des coûts afin de les optimiser en permanence.