Protection des données à caractère personnel

L’exploitation des données personnelles est devenue cruciale pour les entreprises mais ne peut pas se faire sans conditions. Les méthodes de pseudonymisation et d’anonymisation de la donnée permettent de trouver l’équilibre entre libération des usages, sécurité et protection. Ali Hassan, Docteur en Informatique chez Umanis R&I nous partage son expertise.

Ali Hassan, Docteur en Informatique chez Umanis R&I

L’enjeu autour de la protection des données à caractère personnel (DCP) n’est plus à démontrer, avec d’un côté des entreprises qui en ont besoin pour mieux connaître leurs clients et ainsi assurer le développement de leur modèle économique, et d’un autre côté des citoyens dont la vie privée doit être préservée afin d’éviter des dérives dangereuses pour les libertés individuelles.

Les cas d’usage de l’utilisation de la donnée sont multiples, que ce soit le profilage ou la géolocalisation des clients à des fins marketing, l’analyse de données de santé pour faire avancer la recherche, l’exploitation de données pour le développement et les tests d’applications et bien plus encore. Libérer ces usages de la donnée tout en renforçant leur protection, tel est l’objectif à atteindre.

Au-delà du garde-fou essentiel du RGPD européen que tout le monde connait aujourd’hui et qui fixe les limites à ne pas franchir, les entreprises cherchent depuis quelques années à développer la confiance des consommateurs vis à vis de leur marque, ce qui passe assurément par la bonne maîtrise des données personnelles.

Cette protection, beaucoup d’entreprises pensent savoir la gérer, souvent à tort, se contentant d’effacer certaines informations de leurs bases de données, avec pour résultat final de tuer la valeur de la donnée, sans même renforcer sa sécurité. Il existe pourtant des méthodes de désensibilisation à l’efficacité prouvée.

Protéger les données à caractère personnel

Avant de détecter et désensibiliser les DCP détenues par l’entreprise, il convient déjà de définir de quoi l’on parle. Une donnée à caractère personnel est une information permettant d’identifier une personne physique, autrement dit un nom, une photo, une adresse postale ou email, un numéro de téléphone ou de sécurité sociale, une empreinte digitale, une adresse IP, etc.

Pour préserver la vie privée des individus, les entreprises doivent respecter plusieurs engagements tels que la transparence des traitements des DCP, la possibilité d’intervenir sur ces données (les modifier ou les supprimer) mais aussi l’intraçabilité, qui garantit que les DCP ne peuvent pas être liées entre domaines, comme entre un compte bancaire et un dossier médical.

Lorsque l’on souhaite traiter des données réelles dans le cadre d’un projet professionnel, comme effectuer des tests d’une application pour valider sa pertinence, il s’agit de rendre ces données anonymes aux personnes qui ne sont pas censées y avoir accès. Prenons comme exemple parlant celui des plateformes de santé sur lesquelles prendre un rendez-vous pour la vaccination anti-Covid. Le contexte du cas d’usage et son caractère sensible sont ainsi à prendre en compte pour maîtriser les risques.

Détecter les données à caractère personnel

La première étape consiste logiquement à cartographier toutes les DCP que l’entreprise stocke dans l’ensemble de ses bases de données, souvent hétérogènes. Procéder de manière non automatique via des métadonnées se révèle rapidement chronophage et ouvre la porte à des approximations, posant la question de la fiabilité de cette méthode sur de grandes masses de données. D’autant plus que la confidentialité n’est pas toujours assurée lorsque l’on traite les données manuellement.

Il s’agit donc de procéder en se basant sur une ontologie qui catégorise les DCP en fonction d’attributs définis. Concrètement, on utilisera deux méthodes d’analyse : une première, dite d’expressions régulières, qui repère automatiquement les formes de valeurs spécifiques comme une adresse email ou un numéro de téléphone, et une seconde, quand la première n’est pas possible, qui détecte les DCP en comparant les données avec des bases de référence, telles que la liste des noms en France ou encore des maladies répertoriées. Autant de connaissances qui viendront enrichir l’ontologie et affiner la détection des DCP.

On obtiendra ainsi une liste d’attributs pour chaque DCP, que l’on classera en trois types : identifiant (permettant d’identifier directement une personne), quasi-identifiant (permettant d’identifier un groupe de personnes) et sensible (non-identifiante mais à protéger).

Désensibilisation par pseudonymisation ou anonymisation

Une fois détectées, les DCP doivent être « transformées » afin qu’elles ne puissent plus servir à identifier une personne et à révéler certains de ses attributs. Il faudra néanmoins veiller à ce que cette désensibilisation ne dégrade pas trop la qualité de la donnée et donc son utilité. Selon les besoins des différents cas d’usage, on pourra faire appel à deux principaux types de méthodologies puis vérifier leur efficacité.

La pseudonymisation consiste à remplacer un identifiant (comme un nom) par un identifiant artificiel ou un pseudonyme. Ce procédé qui masque les identités des personnes avec un système de chiffrement symétrique est totalement réversible pour peu que l’on possède les clés de déchiffrement, stockées séparément et de manière sécurisée. Cette méthode automatique et confidentielle permet de conserver toute la précision et donc la qualité des données pour des cas d’usage d’IA par exemple.

L’anonymisation, de son côté, vise à modifier le contenu ou la structure des données de manière irréversible, de sorte qu’il soit impossible d’identifier une personne. La qualité de la donnée s’en trouvant affectée, il s’agira donc de trouver le bon équilibre entre contraintes juridiques et besoins pratiques en consultant un DPO, l’administrateur de base de données et les métiers. Certains cas d’usage nécessitent toutefois une anonymisation forte par défaut, comme l’utilisation de données publiques en Open Data.

Anonymiser la donnée sans la vider de sa substance

Davantage utilisée, l’anonymisation peut s’effectuer à travers plusieurs méthodes à sélectionner, appliquer, évaluer puis valider, sachant qu’une surveillance continue des évolutions réglementaires et technologiques demeure indispensable pour pouvoir s’adapter périodiquement. Des ajustements méticuleux sont également nécessaires dès que de nouveaux types de données ou d’attributs permettant une identification sont ajoutés à la base.

Parmi les méthodes d’anonymisation les plus courantes, on trouve celle par généralisation qui remplace une valeur précise par une plus générique, comme une adresse postale par une région par exemple, ou un âge par une tranche d’âge, permettant de conserver la corrélation entre les données. On pourra également opérer une suppression locale pour traiter les valeurs rares dans la base de données. La méthode d’agrégation consiste, quant à elle, à regrouper des données pour obtenir une moyenne, certes moins fidèle, mais qui remplit son rôle. Citons aussi la méthode par permutation aléatoire qui mélange les données, peu performante mais intéressante dans un contexte de test.

Quelles que soient les méthodes retenues, des modèles de protection de la vie privée devront être appliqués pour valider l’efficacité de l’anonymisation. Il s’agit entre autres de vérifier dans la base de données qu’un nombre minimum d’individus possèdent une valeur unique de quasi-identifiants et que l’on ne peut pas les relier à des attributs sensibles. Prenons comme exemple une étude d’impact des pesticides dans les exploitations agricoles. Pour protéger l’identité des exploitants, on déterminera qu’il est nécessaire de lister au moins 5 fermes dans chaque département (quasi-identifiant) et veiller à ce qu’il ne soit pas indiqué que chacune d’entre elles utilise le même pesticide (attribut sensible). Des précautions contraignantes mais indispensables pour garantir l’anonymat.

Un chantier plus organisationnel que technique

Comme on peut le constater, désensibiliser des DCP tout en conservant leur utilité n’est pas un exercice facile et à prendre à la légère. Si posséder des compétences techniques est bien sûr un pré-requis, c’est bien l’enjeu des usages recherchés par les métiers et le périmètre d’action qui déterminera la marche à suivre à court et long terme, en concertation avec la DSI, le RSSI et un DPO.

Réussir à rassembler l’ensemble des parties prenantes et à mettre en place une conduite du changement efficace, c’est bien là que réside la principale difficulté de ce type de projet qui concerne peu ou prou toutes les entreprises. Faire appel à un spécialiste de la désensibilisation qui maîtrise la démarche de bout en bout, que ce soit pour les aspects juridiques et organisationnels ou encore la veille technologique, se révèlera donc rapidement judicieux pour obtenir l’approbation de la CNIL.

Cookie	Durée	Description
mautic_device_id	1 year	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour soutenir nos activités de marketing. Ce cookie permet de connaître l’appareil avec lequel le visiteur accède au site. Expiration du cookie au bout d’un an.
mautic_referer_id	30 minutes	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie permet de connaître l’origine du visiteur.
mtc_id	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID au visiteur du site web dans le but de le reconnaître. Expiration du cookie à la fin de la session
mtc_sid	session	Ce sont des cookies tiers utilisés par Mautic qui nous permettent d’utiliser le service Mautic. Nous utilisons Mautic pour améliorer notre compréhension des attentes de nos lecteurs, leurs proposées des contenus et événements les plus pertinents, soutenir nos activités de marketing en suivant leur navigation sur le site, collecter de l’information sur leurs préférences et gérer les formulaires présent sur le site. Ce cookie donne un ID à la session du visiteur du site, afin de la reconnaître. Expiration du cookie à la fin de la session

Cookie	Durée	Description
YSC	session	Ce cookie est un cookie de Youtube qui enregistre un identifiant unique pour conserver des statistiques sur les vidéos de YouTube que l'utilisateur a vues.
_first_pageview	10 minutes	Ce cookie de session est créé lors du premier affichage de page pour chaque visite. Sa finalité est de permettre de n'afficher certains éléments du code que lors du premier affichage de la page, et rendre le site ainsi plus rapide.
_gat	1 minute	Ce cookie est un cookie de Google Analytics permettant de limiter la cadence des requêtes. Il est valide pendant 24 heures après la date de la session.

Cookie	Durée	Description
IDE	1 year 24 days	Used by Google DoubleClick and stores information about how the user uses the website and any other advertisement before visiting the website. This is used to present users with ads that are relevant to them according to the user profile.
NID	6 months	This cookie is used to a profile based on user's interest and display personalized ads to the users.
VISITOR_INFO1_LIVE	5 months 27 days	This cookie is set by Youtube. Used to track the information of the embedded YouTube videos on a website.

Cookie	Durée	Description
ARRAffinitySameSite	session	No description
attribution_user_id	1 year	No description
cg_uuid	1 year	Sets a unique ID for the visitor, that allows third party advertisers to target the visitor with relevant advertisement. This pairing service is provided by third party advertisement hubs, which facilitates real-time bidding for advertisers.
cilSessionId_e6aa0e1dbf	1 day	No description
cilSessionId_efcc418067	1 day	No description
cilSessionId_ffd7baf9a1	1 day	No description
cookielawinfo-checkbox-others	1 year	No description
PagePeeker		No description
recs_17b347eba0c893c4ff49a469be629e65	past	No description
scid	past	No description
sdx	past	No description
su_sdx	past	No description
su_sid	past	No description
su_user_id	past	No description
thirdparty	1 hour	No description
ubpv	6 months 1 day	No description
ubrs		No description
ubvs	5 months 27 days	No description
ubvt	3 days	No description
UID	2 years	No description

Les rubriques

Alliancy Connect

Contenu

Protection des données à caractère personnel : comment les détecter et les désensibiliser ?

Protéger les données à caractère personnel

Détecter les données à caractère personnel

Désensibilisation par pseudonymisation ou anonymisation

Anonymiser la donnée sans la vider de sa substance

Un chantier plus organisationnel que technique

Suggestion de contenus