La qualité de la Data : un préalable à la confiance et aux usages

Suez, Axa, Canal+, Société Générale… autant d’entreprises qui investissent dans la qualité des données et la gouvernance pour créer la confiance et tirer les usages métiers de la Data. Témoignages.

qualité data confiance La transformation Data des organisations ne repose pas uniquement sur la disponibilité d’une plateforme, ou sur le fait d’intégrer des data scientists et data engineers dans ses équipes internes.

La gouvernance occupe également une place centrale, tout comme la qualité des données. La qualité n’est pas une fin en soi. Elle s’apprécie en fonction des usages visés. Et nécessite par ailleurs une implication des data owners au sein des métiers.

La qualité, un sujet épouvantail sur la Data

Inimaginable d’attendre d’un produit Data d’aide à la décision qu’il soit réellement utilisé par les utilisateurs finaux sans confiance à l’égard des données ou algorithmes sous-jacents. La qualité de la donnée est un des leviers de la création de valeur que permet l’exploitation de la Data en entreprise.

Parmi les principaux enjeux en matière de recours à l’IA au service du business, Meriem Riadi, chief digital officer groupe de Suez, cite l’industrialisation. “Le thème suscite toujours beaucoup d’enthousiasme”. A l’occasion de la conférence Big Data & AI World, la CDO citait toutefois d’abord la qualité des données et la gouvernance.

Mais le “sujet est aride. Il n’est pas simple notamment de mesurer un ROI”, reconnaissait-elle. Joël Farvault, head of Augmented Claims chez Axa, conditionne le succès des projets à la prise en compte de la qualité.

L’assureur a mis en place un processus complet d’évaluation de la qualité des jeux de données selon l’approche DAMA. (The Data Management Association). Sur la base de multiples critères, chaque dataset se voit attribuer un score. Axa considère que tout score inférieur à 3 nécessite une amélioration de la qualité avant exploitation dans un cas d’usage.

Mobiliser les métiers, dont les développeurs

“Quel que soit le contexte, la qualité des données reste un enjeu important finalement”, rappelle Joël Farvault. “On ne peut pas attendre d’un modèle d’IA qu’il soit performant si les données en entrée ne sont pas correctes ou si la question de leur qualité n’est pas adressée.”

Les métiers ont un rôle à jouer, notamment lorsqu’ils saisissent de la donnée dans les outils business du système d’information. Les développeurs de solutions digitales sont également concernés, souligne Arnaud Lutellier, directeur Data pour Canal Plus.

L’entreprise collecte chaque jour plusieurs To de données, des logs relatifs à la consommation des contenus de Canal+ sur différents terminaux. “Mon enjeu n’est pas de coacher des personnes qui saisissent, mais d’expliquer aux développeurs des applications que la donnée est critique. Une erreur peut avoir des impacts très importants.”

Un travail de sensibilisation est donc mené. Mais le chantier de la qualité est un processus continu. “Des données de mauvaise qualité existent toujours dans les systèmes. Nous mettons en place des indicateurs pour identifier des problèmes. Néanmoins, des anomalies sont encore détectées très tard par nos analystes à 15 jours ou 3 semaines”, témoigne Arnaud Lutellier.

La qualité des produits finis avant celle des données

Pour des grands producteurs de données, impossible cependant de mettre l’ensemble du patrimoine Data en qualité. Christina Poirson, chief data officer groupe de la Société Générale, fait un parallèle avec la lutte contre la pollution des océans au plastique.

Dans sa démarche, entamée il y a plusieurs années, notamment sous la pression du régulateur, la banque a donc commencé par les “données prioritaires ». Une transition est cependant en cours. “La donnée est une matière première et ce qui importe c’est donc la qualité du produit fini”, déclare la CDO.

Le pilotage s’effectue donc au niveau du produit et non de la qualité elle-même. La livraison d’un reporting à un régulateur est ainsi l’occasion de contrôler la qualité des données qu’il intègre. En cas de défaut de qualité, le travail portera sur les données sources du reporting et l’identification des causes.

Pour Christina Poirson, cette démarche permet d’obtenir des résultats concrets, visibles pour les directions, grâce à des améliorations tangibles des outils exploitant les données. “Il s’agit d’inverser la logique afin d’investir les efforts de manière la plus efficace possible.”