chronique

Le mirage de l’anonymisation ne doit pas nous aveugler

Journaliste

Ne soyons pas naïfs, l'anonymisation est un leurre. Comment concilier l'utilisation des données et leur anonymat ?

L’anonymisation des données existe et c'est pour une bonne raison. Les données récoltées et compilées, par exemple par l’État ou un opérateur télécom, ont souvent besoin d’être utilisées ailleurs. L’utilisation externe la plus courante et utile est à des fins de recherche scientifique. Pour pouvoir être utilisées, les données sont anonymisées. Un grand principe qui fait que l’on peut en faire un petit peu ce que l’on veut une fois passée cette étape. Tout ceci fonctionne et est sain si l’anonymisation est véritable et complète. Or ce n’est pas le cas.

Après avoir développé, via un modèle mathématique, le risque de réidentification de données anonymisées en 2019, des chercheurs de l’Imperial College of London et de l'UCLouvain viennent de mettre sur pied un observatoire de l’anonymisation dans 89 pays, dont la Belgique. On y retrouve un nouveau modèle qui montre comment des informations que l’on a sur une personne comme sa date de naissance, le lieu où il/elle habite ou son niveau d’études rendent souvent une personne unique dans la population. Unique est dans ce cas-ci synonyme de potentiellement identifiable lorsque l'on trouve un profil avec les même caractéristiques dans un autre lot de données. Celui d’une mutuelle par exemple, où est également reprise la liste des médicaments que vous utilisez.

Il serait très aisé de retrouver dans une base de données labellisée comme anonymisée le secrétaire d’État à la digitalisation Mathieu Michel.

Rien de tel qu’un exemple pour mieux comprendre. Il serait très aisé de retrouver dans une base de données labellisée comme anonymisée le secrétaire d’État à la digitalisation Mathieu Michel, puisqu’il est la seule personne en Belgique, selon le modèle développé par les deux universités, à être un homme né le 18 mai 1979, habitant dans le Brabant wallon, marié et père de deux enfants. Retrouver ce profil unique dans une base de donnée est un jeu d’enfant. Vous imaginez la suite.

Les données doivent être utilisées

Le but de cet observatoire est de vulgariser ce qui reste très complexe et abstrait pour beaucoup d’entre nous. Même si la crise du Covid et l’émergence d’une conscience de l’importance et de la valeur nos données, notamment de santé, a permis de mettre les projecteurs sur l’importance de la protection des données, il suffit de regarder les débats actuels pour voir que nous nous réfugions encore trop souvent derrière la sacro-sainte anonymisation. Elle ne suffit pourtant pas et n’est pas cette garantie que l’on a cru être.

Si l’on reprend l’exemple des données de santé, il est essentiel de pouvoir les utiliser pour faire avancer la recherche, prédire des épidémies ou des évolutions de la population, mais pour cela il faut une protection suffisante pour l’échange et l’utilisation des données. Des solutions existent, comme Opal au Sénégal ou openSafely en Grande-Bretagne, où seul un algorithme accède aux données. Un accès restreint qui garantit une protection plus que nécessaire.

Si un scientifique veut utiliser son algorithme sur un fichier de données, il ne pourra pas le faire directement, mais devra transmettre son algorithme pour qu’il soit utilisé dans un environnement sécurisé qui ne lui donne pas un accès direct aux données. De même, ce que l’algorithme apprend est contrôlé pour s’assurer que des données ne fuitent pas.

L’objectif, in fine, est de ne pas disséminer un peu partout des données qui, bien "qu’anonymisées", peuvent malheureusement souvent être réidentifiés, comme le démontrent régulièrement des universitaires et des scientifiques. Ne nous laissons pas aveugler par le concept de l’anonymisation, travaillons plutôt à des environnements et une gestion plus sûre des données facilement accessibles.

Lire également

Messages sponsorisés

Messages sponsorisés