Vie privée

Anonymisation ou pseudonymisation : le risque persistant lié aux données

Joe Bosso 19 oct. 2021

Assurez-vous que vous êtes conscient des types de données que vous partagez avec les entreprises et de la manière dont elles seront utilisées.

Nous sommes beaucoup à savoir que des entreprises suivent notre cyberactivité pour exploiter nos données à diverses fins commerciales : ciblage publicitaire, analyse du comportement utilisateur pour apporter des modifications à la conception d’un site... De nombreux utilisateurs acceptent cette collecte de données parce qu’on leur garantit que ces données seront rendues anonymes et qu’elles ne permettront pas d’identifier leur propriétaire  mais est-ce vraiment le cas ?

L’anonymisation des données est-elle efficace ? C’est ce que nous allons voir, mais d’abord, de quoi s’agit-il ? La loi phare de l’Union européenne sur la protection des données (le RGPD) définit les informations anonymes comme « les informations ne concernant pas une personne physique identifiée ou identifiable, ni [les] données à caractère personnel rendues anonymes de telle manière que la personne concernée ne soit pas ou plus identifiable ». C’est l’étalon-or des mesures de protection des données : le lien entre les données et la personne concernée disparaît. De ce fait, les données véritablement anonymisées ne sont plus soumises à la plupart des règles de protection des données. Pour vous, par exemple, cela signifie que si une entreprise collecte certaines de vos données personnelles (nom, sexe, code postal, date de naissance...), elle peut les rendre anonymes en supprimant suffisamment d’informations d’identification (par exemple votre nom) de l’ensemble des données, afin d’éliminer la possibilité de vous identifier. Elles cherchent ainsi à éliminer le risque si une violation de données se produit et que les autres points de données dont divulgués. Le raisonnement qui sous-tend cette démarche est que les données sont inoffensives parce qu’elles ne sont pas liées à un individu (par exemple, 48 ans, de sexe féminin, habitant à New York), de sorte que les entreprises vont parfois partager ces données ou les rendre publiques.

Toutefois, cela peut continuer à poser un problème important en matière de protection de la vie privée, car des chercheurs ont démontré qu’il est relativement facile de combiner un de ces ensembles de données avec un autre afin de (ré)identifier des personnes. L’Imperial College London a mené une étude qui a conclu qu’« une fois achetées, les données peuvent faire l’objet d’une rétro-ingénierie à l’aide de l’apprentissage automatique dans le but de ré-identifier les individus, malgré les techniques d’anonymisation. Cela pourrait exposer des informations sensibles sur des personnes identifiées personnellement et permettre aux acheteurs d’établir des profils personnels de plus en plus complets. L’étude démontre pour la première fois avec quelle facilité et quelle précision cela peut être fait, même avec des ensembles de données incomplets. Dans le cadre de la recherche, 99,98 % des Américains ont été correctement ré-identifiés dans n’importe quel ensemble de données « anonymes » disponible en utilisant seulement 15 caractéristiques, dont l’âge, le sexe et l’état civil ». Ce degré de précision étonnamment élevé souligne que, dans certains cas, l’anonymisation des données n’est pas du tout efficace pour protéger les données personnelles.

Dans ce type de situation ( où les individus, ou « personnes concernées », peuvent être relativement facilement ré-identifiés), on ne peut pas parler de véritable « anonymisation » selon les normes du RGPD (qui sont très difficiles à appliquer) parce qu’en fin de compte, les individus étaient toujours « identifiables ». Pour déterminer si une personne est encore identifiable, vous devez prendre en compte toutes les méthodes raisonnablement susceptibles d’être utilisées par quiconque pour (ré)identifier cette personne, directement ou indirectement  et cela inclut la fusion d’ensembles de données, comme indiqué ci-dessus. 

Dans ce genre de cas, on peut davantage considérer les données comme « pseudonymes », que totalement anonymes. Le RGPD définit la pseudonymisation comme le « traitement de données personnelles réalisé de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires », tant que ces informations supplémentaires sont conservées séparément. La pseudonymisation est très utilisée, mais ce n’est pas de l’anonymisation. En effet, dans de nombreux cas, elle n’offre qu’une protection limitée de l’identité des personnes concernées, car elle permet toujours une identification par des moyens indirects. Lorsqu’un pseudonyme est utilisé, il est souvent possible d’identifier la personne concernée en analysant les données sous-jacentes ou connexes. On ne peut parler de données anonymisées que lorsqu’il n’est plus possible d’identifier leur propriétaire... et avec les progrès des données analytiques et du machine learning, il est de plus en plus difficile de s’assurer que c’est le cas.

Comment les entreprises et les consommateurs peuvent-ils protéger leurs données ?

Rajesh Parthasarathy indique à Forbes que pour empêcher ce type de ré-identification, les entreprises doivent prendre des mesures supplémentaires pour protéger les données qu’elles collectent. Premièrement, elles doivent être conscientes des risques de ré-identification de leurs ensembles de données. Par exemple, des chercheurs ont montré qu’un code postal, une date de naissance et un sexe peuvent être utilisés comme « quasi-identifiant » pour identifier avec précision 87 % de la population américaine. 

Les entreprises doivent donc modifier leurs données de manière à ce qu’elles ne puissent pas être réidentifiées en cas de fuite ou si elles prévoient de les partager avec d’autres. Pour cela, la confidentialité différentiellepourrait être une solution. Mais ces entreprises doivent également tenir compte de la nécessité de préserver les données afin qu’elles soient encore utilisables (et précieuses) pour leurs analyses. Il s’agit pour elles de trouver un équilibre entre coûts et avantages de la manipulation de données. 

En tant que consommateur, vous vous trouvez dans la position peu enviable de devoir faire confiance aux entreprises (pour la gestion de vos données) et, ce faisant, potentiellement nuire à leurs résultats. Les entreprises peuvent penser qu’elles bénéficient d’un laissez-passer lorsqu’elles sont victimes d’une violation de données si les données ont été soumises à des techniques d’anonymisation. Mais à moins que les données n’aient été réellement et irréversiblement rendues anonymes, leurs affirmations selon lesquelles les données ne peuvent être reliées à des individus sont trompeuses, et il devrait y avoir davantage de responsabilité et de sensibilisation aux risques associés aux ensembles de données partiellement anonymisées. 

En raison de cette incertitude quant à la sécurité de vos données, nous vous invitons à faire preuve de prudence et à vous assurer que vous êtes conscient des types de données que vous partagez avec les entreprises et de la manière dont elles seront utilisées.


Autres articles :
Protégez vos données personnelles sur Internet
Évitez les quizz qui circulent sur les réseaux sociaux
Comment retrouver votre cyberconfidentialité