Pour leurs projets Big Data, la caisse nationale de l’Urssaf et ses métiers peuvent tirer profit depuis 2019 d’une plateforme Hadoop, une infrastructure moderne et évolutive. Cet environnement bénéficie à la concrétisation de projets innovants.
Du Big Data on-prem et performant
Exploitée en production par de premiers projets depuis 2019, la plateforme Big Data Cloudera de l’Urssaf se compose de cinq clusters Hadoop en mode on-premise. Pour le stockage des données, l’administration dispose d’un data lake (Hadoop Distributed File System ou HDFS) et de bases de données Hive et HBase.
L’Urssaf dispose donc de technologies équivalentes à celles déployées dans de grandes entreprises. Une telle plateforme Big Data s’impose pour le traitement de grands volumes de données et afin de croiser des sources multiples, mais aussi pour générer des indicateurs de suivi.
Concernant l’hébergement de son socle Big Data, l’administration a donc fait le choix du on-premise. Elle exploite des datacenters de forte capacité, en propre, basés à Lyon et à Toulouse. Ces infrastructures en haute disponibilité sont pourvues d’importantes ressources de stockage.
L’Urssaf peut ainsi s’appuyer, pour ses projets, sur un environnement matériel et logiciel à l’état de l’art. Afin d’assurer le maintien en condition opérationnelle de la plateforme Big Data, une migration vers la dernière version de Cloudera sera opérée courant 2023.
La tendance est aujourd’hui souvent à l’adoption de data platform dans le cloud. Un tel scénario a été envisagé. Cependant, en raison notamment de la sensibilité des données traitées, le on-premise a été privilégié.
La disponibilité en France d’un cloud souverain présentant des garanties de performance suffisantes est un préalable à toute migration. Un projet de création d’un cloud souverain commun à la sphère sociale (Urssaf, Assurance maladie, MSA…) est néanmoins à l’étude. Des partages d’expérience entre ces acteurs de l’administration sont en outre menés sur le volet Big Data et les stratégies de données.
Favoriser l’émergence de nouveaux usages des données
Depuis la création de sa plateforme, l’Urssaf migre progressivement traitements et projets vers celles-ci en fonction de critères d’éligibilité, par exemple lorsque les bases de données traditionnelles ne permettent plus de traiter les volumes requis. C’est le cas par exemple du projet DSN (Déclaration Sociale Nominative).
Qualité de service et simulation grâce à la DSN
Depuis 2017, la déclaration DSN est obligatoire pour les entreprises du secteur privé et pour les indépendants. Des traitements (massifs et croisés) sont effectués par l’Urssaf sur des millions de déclarations mensuelles. La DSN fournit des données capitales pour mesurer l’état de l’économie et disposer ainsi de statistiques sur l’emploi et la santé des sociétés.
Structurant, le projet DSN a été pilote pour la migration sur le socle Big Data. Il bénéficie ainsi des capacités de la plateforme en matière de performance, de redondance, de chiffrement et d’anonymisation. Le chantier DSN suit un processus d’amélioration continue et est attendu prochainement en version 3. A la clé, une amélioration de la qualité de service pour les déclarants et les services internes de la caisse nationale.
De plus, grâce aux traitements de données réalisés, l’administration établit des indicateurs utiles à l’action gouvernementale. Les traitements des données DSN participent aussi à la réalisation de micro-simulations dans le cadre de projets de réforme. Les ministères disposent par ce biais d’une mesure d’impact sur les entreprises et les salariés. L’Urssaf contribue ainsi au développement d’un pilotage data-driven de l’action publique.
Lutte contre la fraude avec ESCOBAR
L’exploitation des données DSN intervient également dans la lutte contre la fraude. Baptisé en interne ESCOBAR, ce projet permet par exemple depuis 2021 de détecter les fraudes liées à l’économie collaborative. Au-delà d’un plafond donné, les contribuables sont soumis à une obligation de déclaration de leurs revenus. Par l’intermédiaire de croisements de différentes sources de données, l’Urssaf contribue à réduire la fraude, volontaire ou involontaire. Escobar exploite pour son fonctionnement différents algorithmes conçus par les data scientists de la caisse nationale, et exécutés sur l’infrastructure Big Data.
Open Data, Cosmos, cybersécurité…
Les clusters Hadoop hébergent de multiples projets, au bénéfice notamment du Lab d’open innovation de l’Urssaf et de sa démarche en matière d’open data. Avec Cosmos, l’administration est cette fois en capacité de fournir aux cotisants de la visibilité sur les délais de traitement de leurs demandes. Le résultat de ce calcul est restitué sur le site Web de la Caisse.
La plateforme assure également des traitements liés à l’analyse des accès internes aux données. Les scores générés sont exploités aussi bien dans le cadre de la lutte contre la fraude interne que de la cybersécurité.
Les projets Big Data accélèrent au sein de l’Urssaf, que ce soit du fait de migrations de pans legacy ou afin de répondre à de nouveaux besoins métiers. Dans ce contexte, l’organisation recrute partout en France différents profils, dont des architectes Big Data, des administrateurs et des tech leads. Pour attirer ces profils, l’Urssaf peut mettre en avant des projets innovants tirant profit de technologies et d’infrastructures à l’état de l’art. Elle propose également de la flexibilité, dont le travail à distance.
Urssaf : une réalité technologique en rupture avec son image
Témoignage de Baptiste Bergelin, Architecte Big Data : “Auparavant salarié du privé pour une entreprise industrielle, j’ai postulé notamment pour me faire une idée de l’avancement technologique de l’Urssaf. J’ai été très positivement surpris. Je n’avais pas soupçonné un tel niveau de maturité et d’investissement sur les infrastructures et les solutions Big Data. J’ai par la suite constaté le haut niveau de compétences interne sur le SI. C’était alors assez surprenant pour moi. Et cela l’est également pour les candidats qui postulent.”