Amadeus fait rimer Data Mesh et migration cloud

Partenaire technologique de l’industrie du voyage, Amadeus a déployé une nouvelle plateforme Data dans le cloud. Un chantier qui s’inscrit dans une démarche Data Mesh destinée à simplifier l’usage et la valorisation des données.

Il n’existe pas de chemin unique vers le Data Mesh. A chaque organisation sa priorité et sa voie d’accès. La modernisation d’une plateforme de données demeure néanmoins souvent une porte d’entrée.

Chez Michelin, self-service, virtualisation des données et gouvernance fédérée ont ainsi motivé l’adoption de cette philosophie de transformation Data. Au sein d’Amadeus, c’est la migration vers le cloud et la rénovation de la Data Platform qui ont été les déclencheurs.

A lire aussi : Michelin poursuit sa mue Data Mesh

Du Hadoop legacy à la data platform sur Azure

Fournisseur mondial de solutions pour l’industrie du voyage (compagnies aériennes, aéroports, hôtels, agences de voyages…), Amadeus était confronté aux limites de son infrastructure Hadoop on-premise.

Coûts de maintenance élevés, freins au partage de données entre applications et avec ses partenaires et clients, cite par exemple Yan Morvan, Cloud Data Platform principal engineer d’Amadeus.

“Les environnements étaient rustiques et pénalisaient les activités de data science faute d’être suffisamment agiles”, ajoute Damien Claveau, Data Platforms Operations lead engineer.

De plus, ces lacunes en termes d’agilité se conciliaient mal avec une stratégie de sécurité axée sur le “zero trust à tous les niveaux”. Pour piloter cette politique basée sur des défenses multi-couches, l’automatisation était indispensable.

Elle s’applique en effet à tous les systèmes, dont l’analytic. “Sur les infrastructures historiques Hadoop, c’était un vrai challenge”, souligne Yan Morvan. Dans le cadre d’une migration vers le cloud, l’entreprise a pris le parti d’opter pour une approche data mesh.

Du data lake au data mesh

Cela signifiait “passer du data lake au data mesh. La data devient un produit, et la plateforme un service. Cela permet de réduire la duplication de données pour baisser les coûts, et aussi d’améliorer l’accès aux services de base de transformation des données”, détaille Damien Claveau.

Amadeus ne s’intéresse pas seulement au pilier infrastructure-as-a-service du data mesh. Il a donc fallu également mettre en place une gouvernance fédérée, des standards communs et une organisation décentralisée (owners et data stewards) favorisant l’autonomie des domaines de données.

Ces domaines correspondent pour l’entreprise à des domaines métiers, une dizaine au total (airline, shopping, hôtellerie, paiements…). Chacun dispose de services de stockage de données sécurisés et de connexions réseau propres via un réseau virtuel.

“Nous avons suivi la préconisation d’Azure, qui propose une approche basée sur des data landing zones. Une zone est une entité qui va contenir différents services, notamment analytics, pour faire du processing de données”, décrit Damien Claveau.

Ces différentes landing zones sont interconnectées entre elles, constituant ainsi le data mesh. Par ailleurs, elles sont reliées à un data management central pour permettre le pilotage et la gouvernance du data mesh.

Plusieurs instances par data landing zones

Les applications sources d’Amadeus se composent principalement de systèmes transactionnels distribués dans le monde, “au plus près des clients”. Cette répartition concerne aussi les applications analytics afin de favoriser autant que possible un “processing local ou régional.”

Cette spécificité se retrouve au niveau du data mesh. “Une landing zone comporte plusieurs instances, une dans chaque région”, indiquent ses experts Data. Par ailleurs, ce schéma permet de répondre aux exigences réglementaires en matière de localisation des données.

Pour amener les jeux de données au plus près des clients, Amadeus a recours à des technologies additionnelles comme Snowflake. Celles-ci lui permettent de “déployer des datawarehouses très peuplés avec des données et des modèles sur des cloud providers dont nous sommes partenaires ou dans des régions où nous ne disposons pas de landing zones.”

L’entreprise est aussi amenée à “déployer des mini landing zones que nous opérons dans la souscription de nos clients. La souscription devient alors un satellite du data mesh”, commente Yan Morvan.

Parallèlement, les équipes d’Amadeus ont mis en place un “data control plane”. Celui-ci sert de “façade aux processus de gestion des données.” Il comprend deux fonctionnalités jugées essentielles. Il s’agit du framework de gestion des datasets et du catalogue de données (Collibra)

Le control plane est partagé à tout le data mesh. Il permet d’implémenter des principes sur les données afin qu’elles soient facilement adressables, de qualité, documentées, interopérables, sécurisées, etc.

De l’automatisation pour déverrouiller la gouvernance

La gestion des jeux de données s’effectue depuis le data catalog, pour la documentation des données et leur classification (en trois niveaux) en fonction des informations personnelles qu’elles renferment.

Cependant, pour favoriser leur usage, Amadeus a mis en place un framework d’anonymisation. Des champs de données sont ainsi masqués. Les data scientists sont invités à privilégier les versions anonymisées des jeux de données.

Pour gérer une gouvernance sur un tel périmètre, l’automatisation est indispensable, insistent les représentants d’Amadeus. “Nous exploitons le kit de développement de Collibra pour implémenter différents workloads : déclaration d’un dataset ou d’une nouvelle application consommatrice de données, etc. Ces workloads, qui passent par différents approvals, déclenchent des algorithmes développés en Python dans les Azure fonctions.”

Ces automatisations interviennent ainsi, par exemple, pour créer des conteneurs, déterminer le niveau de stockage et de protection, ou encore pour configurer les permissions. En ce qui concerne les métadonnées des actifs du data mesh, elles sont indexées par le produit d’inventaire d’Azure, Purview.

“Il consolide tout dans un index que nous utilisons pour faire des recherches, trouver nos actifs dans le data mesh, faire des audits, mesurer notre exposition aux données sensibles… De plus, l’index est intégré avec les différents produits Azure, dont Synapse et AzureML. Cela facilite la vie des utilisateurs”, justifie Damien Claveau.

Des workspaces applicatifs pour concevoir des data products

Sur le volet data products, Amadeus en totalise plusieurs centaines, de nature assez hétérogène. Un produit consistera par exemple en un rapport de BI. Pour la conception de ces produits, l’entreprise a mis en place un concept de workspace applicatif.

“Il s’agit d’entités plus petites contenues dans les data landing zones. Elles embarquent les services d’analytics nécessaires à la transformation de données, comme Databricks, Snowflake, PoweBI, Qlik…”, précise Yan Morvan.

Entre 60 et 100 workspaces sont ainsi en production. Ils sont indépendants et appartiennent à une application ou une équipe de développement, qui sont ainsi autonomes dans la création de data products. Par ailleurs, les workspaces sont connectés aux différents data stores du data mesh et au control plan.

Les data scientists seraient les premiers bénéficiaires de ce virage vers le data mesh engagé il y a désormais un an et demi. “Nous avons pu constater que cette approche tirait les usages par rapport à l’infrastructure précédente.” L’automatisation de l’attribution de droits répond directement à un pain point. “Les équipes data science gagnent énormément de temps sur cette phase.”

Pour l’entraînement des modèles, le catalogue constitue aussi un atout. Il référence en effet des jeux d’entraînement de “bonne qualité”. Les données générées lors de la phase d’inférence des modèles sont elles aussi collectées et indexées dans le catalogue pour être mutualisées et réutilisées.

L’infrastructure-as-code permet en outre aux domaines et à leurs data scientists, depuis ServiceNow, de faire une demande de workspace. Sa création est automatisée grâce à de l’orchestration.

“Ce nouveau modèle, dans lequel nous donnons plus d’autonomie, a été très facilement adopté. C’est un succès. Les utilisateurs ont oublié les clusters Hadoop et le data lake”, concluent les ingénieurs Data Platforms d’Amadeus.

Propos recueillis lors du Salon Big Data Paris 2022.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu