La CNIL publie un nouveau guide de l’Open Data en partenariat avec la CADA : focus sur l’anonymisation

Suite à une consultation publique lancée par la CNIL et la CADA au printemps 2019, plus de 220 contributions ont permis la constitution d’un nouveau guide RGPD de l’Open Data, avec la publication d’une fiche pratique sur l’anonymisation.

L’ambition de ces fiches thématiques est de clarifier les implications pratiques du régime de la donnée publique.

Anonymisation et RGPD

L’anonymisation est le processus irréversible par lequel le caractère identifiable des données à caractère personnel est supprimé. Dès lors que les données ne permettent plus d’identifier une personne physique (un individu, par opposition à une entreprise publique ou privée ou encore une association qui sont des personnes morales), il ne s’agit plus de données personnelles, et le RGPD ne trouve donc plus à s’appliquer. C’est cette sortie du champ d’application du Règlement qui permet d’envisager la publication de telles données.

NB. L’anonymisation en elle-même constitue un traitement de données personnelles au sens du RGPD

Toutefois, le critère essentiel de l’anonymisation est bien son caractère irréversible, lequel est rare et conduit à une confusion courante entre anonymisation et pseudonymisation.

Extrait du RGPD : article 4, 5° « «pseudonymisation», le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable »

Anonymisation et pseudonymisation

Alors que l’anonymisation conduit à empêcher l’identification d’une personne physique par le biais des données concernées, la pseudonymisation consiste à supprimer ce caractère identifiable de manière réversible. Autrement dit, une donnée pseudonymisée ne permettra pas de remonter à un individu sans recourir à d’autres informations, mais a contrario, l’utilisation de données tierces peut permettre de relier la donnée pseudonymisée à la personne.

Dans ce cadre, si les données anonymisées ne sont pas concernées par le RGPD, les données pseudonymisées demeurent des données à caractère personnel, dès lors qu’elles peuvent permettre de remonter à la personne physique, bien qu’indirectement. Il faut donc bien garder à l’esprit que le RGPD s’applique aux données pseudonymisées, la pseudonymisation ne consistant en pratique qu’à utiliser des informations indirectement identifiantes (alias, numéro) plutôt que des informations directement identifiantes (nom, prénom).

NB. De même que l’anonymisation, la pseudonymisation, dès lors qu’elle consiste à travailler sur des données personnelles, constitue un traitement de données lui-même soumis aux exigences du RGPD.

Anonymisation et Open Data

Dans le cadre de la recherche scientifique ou en ce qui concerne des administrations, certains documents peuvent voire doivent être rendus publics. On parle d’Open Data, d’ouverture des données au public. Toutefois, dans ces hypothèses, des données personnelles pourraient se voir dévoiler, avec un risque pour les droits des personnes concernées, ce dont il résulte l’exigence d’anonymisation de certaines données.

A titre d’exemple, l’article L.312-1-2 du CRPA (Code des Relations entre le Public et l’Administration) précise que les données à caractère personnel susceptibles d’être diffusées dans le cadre de cette ouverture au public des documents administratifs doivent faire l’objet d’un traitement visant à rendre impossible l’identification des personnes, à moins que celles-ci ne consentent à leur publication ou que la règlementation le prévoit.

Dans le cadre de la recherche, on peut difficilement imaginer que la mise en ligne de résultats d’un projet de recherche, qui informe légitimement le public et participe au progrès de la recherche, ait pour conséquences de rendre publiques les coordonnées de centaines de participants à des études.Anonyme

Autrement dit, l’anonymisation apparait ici comme un outil essentiel à la pratique des données ouvertes.

Efficacité de l’anonymisation et réutilisation des données

Il existe plusieurs procédés d’anonymisation, parmi lesquels la randomisation, qui rend les données moins précises donc moins identifiantes, et la généralisation, qui consiste à modifier l’échelle ou l’ordre de grandeur d’un jeu de données afin d’en atténuer l’individualisation.

En réalité, la bonne technique d’anonymisation n’existe pas, car celle-ci dépend des spécificités de chaque projet et nécessite une réflexion en amont.

Dans tous les, il faut bien conserver à l’esprit que des données anonymisées ne pourront pas être réutilisées de la même façon que des données pseudonymisées, notamment dans le cadre de la recherche ou de statistiques.

Le G29 a proposé 3 critères d’évaluation des techniques d’anonymisation : l’individualisation (possibilité d’isoler l’individu), la corrélation (possibilité de relier des données sur un même individu), et l’inférence (possibilité de déduire de l’information sur un individu), qui peuvent permettre au responsable de traitement de mieux préparer l’anonymisation en vue de la publication des données.

En savoir plus