Partenaire technologique de l’industrie du voyage, Amadeus a déployé une nouvelle plateforme Data dans le cloud. Un chantier qui s’inscrit dans une démarche Data Mesh destinée à simplifier l’usage et la valorisation des données.
Chez Michelin, self-service, virtualisation des données et gouvernance fédérée ont ainsi motivé l’adoption de cette philosophie de transformation Data. Au sein d’Amadeus, c’est la migration vers le cloud et la rénovation de la Data Platform qui ont été les déclencheurs.
A lire aussi : Michelin poursuit sa mue Data Mesh
Du Hadoop legacy à la data platform sur Azure
Fournisseur mondial de solutions pour l’industrie du voyage (compagnies aériennes, aéroports, hôtels, agences de voyages…), Amadeus était confronté aux limites de son infrastructure Hadoop on-premise.
Coûts de maintenance élevés, freins au partage de données entre applications et avec ses partenaires et clients, cite par exemple Yan Morvan, Cloud Data Platform principal engineer d’Amadeus.
“Les environnements étaient rustiques et pénalisaient les activités de data science faute d’être suffisamment agiles”, ajoute Damien Claveau, Data Platforms Operations lead engineer.
De plus, ces lacunes en termes d’agilité se conciliaient mal avec une stratégie de sécurité axée sur le “zero trust à tous les niveaux”. Pour piloter cette politique basée sur des défenses multi-couches, l’automatisation était indispensable.
Elle s’applique en effet à tous les systèmes, dont l’analytic. “Sur les infrastructures historiques Hadoop, c’était un vrai challenge”, souligne Yan Morvan. Dans le cadre d’une migration vers le cloud, l’entreprise a pris le parti d’opter pour une approche data mesh.
Du data lake au data mesh
Cela signifiait “passer du data lake au data mesh. La data devient un produit, et la plateforme un service. Cela permet de réduire la duplication de données pour baisser les coûts, et aussi d’améliorer l’accès aux services de base de transformation des données”, détaille Damien Claveau.
Amadeus ne s’intéresse pas seulement au pilier infrastructure-as-a-service du data mesh. Il a donc fallu également mettre en place une gouvernance fédérée, des standards communs et une organisation décentralisée (owners et data stewards) favorisant l’autonomie des domaines de données.
Ces domaines correspondent pour l’entreprise à des domaines métiers, une dizaine au total (airline, shopping, hôtellerie, paiements…). Chacun dispose de services de stockage de données sécurisés et de connexions réseau propres via un réseau virtuel.
“Nous avons suivi la préconisation d’Azure, qui propose une approche basée sur des data landing zones. Une zone est une entité qui va contenir différents services, notamment analytics, pour faire du processing de données”, décrit Damien Claveau.
Ces différentes landing zones sont interconnectées entre elles, constituant ainsi le data mesh. Par ailleurs, elles sont reliées à un data management central pour permettre le pilotage et la gouvernance du data mesh.
Plusieurs instances par data landing zones
Les applications sources d’Amadeus se composent principalement de systèmes transactionnels distribués dans le monde, “au plus près des clients”. Cette répartition concerne aussi les applications analytics afin de favoriser autant que possible un “processing local ou régional.”
Cette spécificité se retrouve au niveau du data mesh. “Une landing zone comporte plusieurs instances, une dans chaque région”, indiquent ses experts Data. Par ailleurs, ce schéma permet de répondre aux exigences réglementaires en matière de localisation des données.
Pour amener les jeux de données au plus près des clients, Amadeus a recours à des technologies additionnelles comme Snowflake. Celles-ci lui permettent de “déployer des datawarehouses très peuplés avec des données et des modèles sur des cloud providers dont nous sommes partenaires ou dans des régions où nous ne disposons pas de landing zones.”
L’entreprise est aussi amenée à “déployer des mini landing zones que nous opérons dans la souscription de nos clients. La souscription devient alors un satellite du data mesh”, commente Yan Morvan.
Parallèlement, les équipes d’Amadeus ont mis en place un “data control plane”. Celui-ci sert de “façade aux processus de gestion des données.” Il comprend deux fonctionnalités jugées essentielles. Il s’agit du framework de gestion des datasets et du catalogue de données (Collibra)
Le control plane est partagé à tout le data mesh. Il permet d’implémenter des principes sur les données afin qu’elles soient facilement adressables, de qualité, documentées, interopérables, sécurisées, etc.
De l’automatisation pour déverrouiller la gouvernance
La gestion des jeux de données s’effectue depuis le data catalog, pour la documentation des données et leur classification (en trois niveaux) en fonction des informations personnelles qu’elles renferment.
Cependant, pour favoriser leur usage, Amadeus a mis en place un framework d’anonymisation. Des champs de données sont ainsi masqués. Les data scientists sont invités à privilégier les versions anonymisées des jeux de données.
Pour gérer une gouvernance sur un tel périmètre, l’automatisation est indispensable, insistent les représentants d’Amadeus. “Nous exploitons le kit de développement de Collibra pour implémenter différents workloads : déclaration d’un dataset ou d’une nouvelle application consommatrice de données, etc. Ces workloads, qui passent par différents approvals, déclenchent des algorithmes développés en Python dans les Azure fonctions.”
Ces automatisations interviennent ainsi, par exemple, pour créer des conteneurs, déterminer le niveau de stockage et de protection, ou encore pour configurer les permissions. En ce qui concerne les métadonnées des actifs du data mesh, elles sont indexées par le produit d’inventaire d’Azure, Purview.
“Il consolide tout dans un index que nous utilisons pour faire des recherches, trouver nos actifs dans le data mesh, faire des audits, mesurer notre exposition aux données sensibles… De plus, l’index est intégré avec les différents produits Azure, dont Synapse et AzureML. Cela facilite la vie des utilisateurs”, justifie Damien Claveau.
Des workspaces applicatifs pour concevoir des data products
Sur le volet data products, Amadeus en totalise plusieurs centaines, de nature assez hétérogène. Un produit consistera par exemple en un rapport de BI. Pour la conception de ces produits, l’entreprise a mis en place un concept de workspace applicatif.
“Il s’agit d’entités plus petites contenues dans les data landing zones. Elles embarquent les services d’analytics nécessaires à la transformation de données, comme Databricks, Snowflake, PoweBI, Qlik…”, précise Yan Morvan.
Entre 60 et 100 workspaces sont ainsi en production. Ils sont indépendants et appartiennent à une application ou une équipe de développement, qui sont ainsi autonomes dans la création de data products. Par ailleurs, les workspaces sont connectés aux différents data stores du data mesh et au control plan.
Les data scientists seraient les premiers bénéficiaires de ce virage vers le data mesh engagé il y a désormais un an et demi. “Nous avons pu constater que cette approche tirait les usages par rapport à l’infrastructure précédente.” L’automatisation de l’attribution de droits répond directement à un pain point. “Les équipes data science gagnent énormément de temps sur cette phase.”
Pour l’entraînement des modèles, le catalogue constitue aussi un atout. Il référence en effet des jeux d’entraînement de “bonne qualité”. Les données générées lors de la phase d’inférence des modèles sont elles aussi collectées et indexées dans le catalogue pour être mutualisées et réutilisées.
L’infrastructure-as-code permet en outre aux domaines et à leurs data scientists, depuis ServiceNow, de faire une demande de workspace. Sa création est automatisée grâce à de l’orchestration.
“Ce nouveau modèle, dans lequel nous donnons plus d’autonomie, a été très facilement adopté. C’est un succès. Les utilisateurs ont oublié les clusters Hadoop et le data lake”, concluent les ingénieurs Data Platforms d’Amadeus.
Propos recueillis lors du Salon Big Data Paris 2022.