Comme la demande pour les données ne cesse de croître, la question des technologies d’amélioration de la confidentialité (TAC) est devenue incontournable si l’on veut assurer un partage responsable des données. Les institutions gouvernementales, les entreprises et même la population en général désirent maintenant en savoir plus sur les possibilités et les limites de ces technologies. Dans un blogue savoir techno précédent, nous nous sommes penchés sur deux TAC en particulier : l’apprentissage fédéré et la confidentialité différentielle. Dans le présent blogue, nous abordons un nouveau sujet : les données synthétiques.
Les données synthétiques sont une ancienne technique de dépersonnalisation dont la fonctionnalité et le champ d’application ont récemment changé de façon radicale. Les premières versions remontent aux années 1980Note de bas de page 1 (en anglais seulement), mais aujourd’hui, comme c’est le cas dans de nombreux domaines, les progrès en intelligence artificielle (IA) et en apprentissage automatique (AA) ont permis d’élargir les capacités de cette technique sur le plan du traitement et de l’analyse des données.
Les données synthétiques permettent maintenant de faire de réelles avancées dans la résolution d’un problème de longue date concernant la dépersonnalisation. Avec les techniques de dépersonnalisation plus classiques, il était pratiquement impossible de dépersonnaliser les mégadonnées sans réduire considérablement leur utilité. Grâce aux outils et aux méthodes de l’IA et de l’AA, il est désormais possible pour les données synthétiques de mieux saisir les propriétés statistiques des ensembles de données complexes de grande dimension tout en contribuant à protéger l’identité des personnes.
Cette situation aura potentiellement des répercussions importantes. Pour entraîner leurs algorithmes, les systèmes d’IA et d’AA doivent avoir accès à de grandes quantités de données. En utilisant des données synthétiques comme technique de dépersonnalisation, il serait plus facile pour les organisations de partager de « faux » ensembles de données volumineuses, ce qui pourrait favoriser la recherche et le développement d’applications en IA et en AA.
Compte tenu de ce rôle de catalyseur potentiel de l’IA et de l’AA, il n’est pas surprenant que les données synthétiques aient fait l’objet d’une grande attention ces derniers temps. Forrester a désigné les données synthétiques comme l’une des cinq grandes avancées (en anglais seulement) qui permettront d’atteindre le prochain niveau d’IA pour les entreprises. Selon Gartner (en anglais seulement), « d’ici 2024, 60 % des données utilisées pour le développement de projets d’IA et d’analyse seront générées synthétiquement [traduction] ».
Mais qu’en est-il réellement? Les données synthétiques représentent-elles vraiment une percée majeure par rapport aux techniques plus classiques de dépersonnalisation, ou faut-il faire les mêmes compromis (ou des compromis similaires) entre vie privée et utilité? Le rôle de ces données en tant que catalyseur potentiel des systèmes d’IA et d’AA est-il un phénomène strictement neutre, ou cet aspect soulève-t-il des considérations supplémentaires, alors que leur rôle et leur importance dans les techniques de dépersonnalisation plus classiques étaient peut-être moins déterminants?
Dans ce blogue, nous nous pencherons sur certains aspects des données synthétiques dans le but de fournir des explications détaillées sur cette technique de dépersonnalisation. En termes clairs, on n’y trouvera pas de conseils sur l’application des données synthétiques dans le cadre des lois fédérales sur la protection de la vie privée, mais plutôt une analyse des avantages et des inconvénients en cause pour mettre les choses en contexte et mieux comprendre ces données d’un point de vue technique, par opposition à un point de vue juridique ou politique.
Tout au long de ce document, nous utilisons le terme « dépersonnalisation » en son sens technique pour désigner l’application d’outils et de techniques à des renseignements personnels dans le but de les rendre non identifiables, c’est-à-dire au-delà de la simple suppression d’identifiants directs. Dans le présent contexte, cette utilisation du terme est synonyme du sens technique d’« anonymisation »; les deux termes sont donc interchangeables.
REMARQUE : En juin 2022, le gouvernement a déposé un projet de loi qui mettrait à jour la loi fédérale sur la protection des renseignements personnels dans le secteur privé au Canada. S’il est adopté, le projet de loi C‑27 comprendra des définitions officielles de « données anonymisées » et de « données dépersonnalisées », ce qui n’est pas le cas dans la loi actuelle. (Au titre du projet de loi C‑27, les données anonymisées seraient des données modifiées au point où elles ne seraient plus considérées comme des renseignements personnels; les données dépersonnalisées, quant à elles, seraient toujours considérées comme telles). Le présent blogue ne fournit pas de point de vue juridique ou de principe permettant de déterminer si les données synthétiques, indépendamment des circonstances, seraient considérées comme dépersonnalisées ou anonymisées selon les définitions du projet de loi C‑27.
Que sont les données synthétiques?
Avant d’aborder les avantages et les inconvénients, nous devons d’abord faire le point et définir ce que sont exactement les données synthétiques et comment elles fonctionnent.
Essentiellement, les données synthétiques sont des données fictives produites par un algorithme dont le but est de conserver les mêmes propriétés statistiques que certaines données réelles, mais sans relation univoque entre les fichiers de données synthétiques et les données réelles. En matière de résultats, la principale différence par rapport aux autres techniques de dépersonnalisation est que les données synthétiques ressemblent à des données identifiables non modifiées. Même si elles sont fictives, elles conservent la même structure et le même niveau de granularité que l’original.
Sur le plan de la fonctionnalité, il y a quatre éléments à prendre en compte :
- Les données source. Il s’agit de l’ensemble des données originales dont les propriétés statistiques sont celles que les données synthétiques tentent d’émuler. Outre la suppression des variables sans utilité analytique (c’est-à-dire les variables jugées inutiles pour une analyse secondaire), les données source ne subissent aucune transformation. Cela signifie que, si les données source concernent des individus, elles contiendront probablement des renseignements personnels. Par ailleurs, elles contiendront presque certainement des quasi-identifiants (par exemple l’âge, le sexe, la race, etc.) et pourront même contenir des identifiants directs (par exemple une image faciale, une adresse, un profil d’identification génétique, etc.).
- Le modèle génératif. Il s’agit du modèle statistique utilisé pour générer les données synthétiques. Il est dérivé des données source. De multiples méthodes ont été mises au point au fil des ansNote de bas de page 2 (en anglais seulement). Cependant, la méthode la plus courante aujourd’hui est l’utilisation d’outils d’IA et d’AA, notamment des techniques plus avancées dites d’« apprentissage profond ». Grâce à l’IA et à l’AA, un modèle génératif est capable d’« apprendre » les propriétés statistiques des données source sans faire d’hypothèses fortes sur les distributions sous-jacentes des variables et les corrélations entre elles. Les détails diffèrent selon l’architecture de l’IA et de l’AA utilisée. Cependant, le cadre de cette approche lui permet de saisir par défaut des relations plus complexes et non linéaires.
- Les données synthétiques. Il s’agit des données générées par le modèle génératif. Généralement, elles sont produites en prenant des échantillons aléatoires de points de données tirés directement de la distribution conjointe du modèle génératif. Cependant, dans le cas des méthodes d’apprentissage profond, le processus est légèrement différent. Les échantillons sont d’abord tirés aléatoirement d’une distribution propre à l’entraînement du modèle, puis introduits dans le modèle appris pour générer les données synthétiques.
- Les mesures de vie privée et d’utilité. Ces mesures permettent de déterminer la « distance », c’est-à-dire le degré de similarité ou de différence, entre les distributions conjointes ou les propriétés statistiques des données source et des données synthétiques. Il existe de nombreuses mesures à ce chapitre. Par exemple, la distance peut être mesurée en comparant les distributions de variables uniques, les corrélations entre les variables, la distance euclidienne entre les voisins les plus proches dans chaque ensemble de données, la précision des modèles de prédiction multidimensionnels et la capacité d’un modèle entraîné à distinguer les fichiers de données réelles des fichiers de données synthétiques. En général, il n’y a pas une seule mesure qui puisse convenir à un cas d’utilisation donné.
En plus, il existe deux types généraux de données synthétiques :
- Les données entièrement synthétiques. Dans ce cas, l’ensemble des variables des données source est généré synthétiquement.
- Les données partiellement synthétiques. Dans ce cas, seuls les quasi-identifiants ou autres variables sensibles des données source sont générés de manière synthétique. Les autres variables sont présentes dans leur forme originale.
Quels en sont les avantages?
L’engouement autour des données synthétiques n’est pas sans fondement. Par rapport aux autres techniques de dépersonnalisation, elles offrent un certain nombre d’avantages. Les trois principaux sont les suivants :
- Les données entièrement synthétiques peuvent protéger contre les attaques classiques de réidentification. Dans le passé, la plupart des attaques de réidentification réussies ont exploité deux types de défaillance dans le processus de dépersonnalisation.
La première défaillance, c’est quand l’organisation qui diffuse des données ne parvient pas à identifier correctement les variables qui doivent être traitées comme des quasi-identifiants. C’est ce qui s’est produit dans l’attaque du prix NetflixNote de bas de page 3 (en anglais seulement), qui est souvent citée. Netflix ne s’est pas rendu compte que les évaluations individuelles des films étaient également présentées sur le site IMDb, ce qui permettait de facilement identifier de nouveau certains de ses clients dans l’ensemble des données des personnes ayant évalué les mêmes films sur les deux sites.
La seconde défaillance, c’est quand l’organisation qui diffuse des données n’applique pas de techniques de dépersonnalisation suffisamment rigoureuses aux variables qu’il a identifiées. C’est ce qui est arrivé à la Ville de New York lorsqu’elle a publié des données sur l’historique des trajets et des tarifs de taxis. La Ville a utilisé un hachage à sens unique (aucun salage) pour supprimer le numéro de permis du conducteur et le numéro de médaillon du taxi pour chaque course. Cependant, comme le nombre total de valeurs possibles pour chaque numéro était peu élevé d’un point de vue informatique, il n’était pas difficile pour un informaticien de calculer tous les hachages possibles (en anglais seulement) et de retrouver ainsi les numéros de permis et numéros de médaillon originaux pour chaque courseNote de bas de page 4.
Comme les données entièrement synthétiques simulent toutes les variables des données source et appliquent le même processus de production à chacune d’entre elles, elles protègent généralement par défaut contre ces types d’attaques de réidentification. - Elles permettent de saisir les propriétés statistiques des ensembles de données de grande dimension. En général, les techniques de dépersonnalisation fonctionnent de deux manières. Soit elles utilisent des techniques de généralisation pour protéger les individus qui permettent de se fondre dans la masse, soit elles utilisent des techniques de randomisation pour établir une forme de déni plausible. Les données synthétiques peuvent être considérées comme une combinaison des deux approches. Elles cachent les personnes dans les propriétés statistiques des données source tout en leur fournissant une forme de déni plausible lors du processus de production. En adoptant cette approche que l’on peut qualifier de « meilleur des deux mondes », les données synthétiques sont plus à même de saisir les propriétés statistiques des ensembles de données complexes de grande dimension, tout en contribuant à protéger l’identité des personnes.
- Le processus de dépersonnalisation peut être automatisé dans une plus large mesure. Les deux points ci-dessus conduisent à un troisième. En général, si une technique de dépersonnalisation ne dépend pas des hypothèses concernant les variables à considérer comme des quasi-identifiants, et si son champ d’application inclut des ensembles de données de complexité et de taille variables, alors la capacité de cette technique à automatiser le processus global de dépersonnalisation augmente. Un processus automatisé peut faciliter l’exécution de tâches plus complexes et plus variées en moins de temps et à moindre coût. Cela s’applique en particulier aux données entièrement synthétiques.
Quels en sont les inconvénients?
Malgré ces avantages, les données synthétiques soulèvent également un certain nombre de questions et de préoccupations, qui se répartissent en deux catégories. Certaines sont propres à la dépersonnalisation, d’autres découlent du lien étroit entre les données synthétiques et le développement des systèmes d’IA et d’AA.
En ce qui concerne la dépersonnalisation, les données synthétiques soulèvent bon nombre des mêmes préoccupations que les techniques de dépersonnalisation plus classiques, mais avec de petites différences. Les trois principaux inconvénients sont les suivants :
- La réidentification est toujours possible si les fichiers de données source apparaissent dans les données synthétiques. À première vue, il peut sembler que les données synthétiques permettent de résoudre le problème de la réidentification. Cependant, en y regardant de plus près, on s’aperçoit qu’il y a toujours un risque, mais sous une forme différente. Si le modèle génératif apprend les propriétés statistiques des données source de manière trop similaire ou trop exacte, c’est-à-dire s’il fait un « surapprentissage », les données synthétiques reproduiront simplement les données source, ce qui facilitera la réidentification. Même dans le cas où le modèle génératif ne souffre pas de surapprentissage, la reproduction des fichiers peut toujours se produire par hasard, mais avec une probabilité moindre. Ainsi, ce risque subsiste sous une certaine forme, que la modélisation ait été effectuée correctement ou pas.
Comme le font remarquer Hundepool et d’autres (en anglais seulement), il est peu probable que le simple fait de dire à une personne que ses renseignements personnels ont été générés de manière synthétique suffise comme explicationNote de bas de page 5. En outre, selon des évaluations empiriques, il semble que certains outils de production synthétique génèrent par défautNote de bas de page 6 des données synthétiques dont la proximité avec les données sources est préoccupante (en anglais seulement). - Les valeurs aberrantes s’exposent à des attaques par inférence d’appartenance. Des recherches récentes sur la sécurité des modèles d’IA et d’AA ont conduit à l’établissement d’une nouvelle catégorie d’attaques de réidentificationNote de bas de page 7 (en anglais seulement). L’une de ces attaques est ce que l’on appelle une attaque par « inférence d’appartenance ». Dans le cas des données synthétiques, l’attaquant tente d’apprendre si le fichier d’une personne était présent dans les données source en analysant les propriétés des données synthétiques. Parfois, même l’appartenance à un ensemble de données peut révéler des renseignements de nature sensible. Par exemple, si un ensemble de données est propre aux personnes atteintes de démence ou du VIH, le simple fait que le fichier d’une personne y soit inclus révélerait des renseignements personnels la concernant. Les données synthétiques ne protègent pas entièrement contre les attaques par inférence d’appartenance. En particulier, les recherches semblent indiquer que les valeurs aberrantes ou les fichiers dans les données source dont les valeurs d’attribut se situent en dehors du quantile à 95 % demeurent à risque élevéNote de bas de page 8 (en anglais seulement).
- En général, elles ne protègent pas contre la divulgation d’attributs. La réidentification est l’un des deux types de risque pour la vie privée que l’on associe aux données dépersonnalisées. L’autre type est ce que l’on appelle la « divulgation d’attributs ». Il s’agit du cas où un attaquant est capable de connaître la valeur d’un attribut confidentiel pour une personne donnée sans nécessairement identifier celle-ci ou son fichier. Généralement, cela se produit en établissant un lien entre un individu et son appartenance à un groupe avec un attribut commun, de façon déterministe ou probabiliste.
En général, les données synthétiques ne protègent pas contre la divulgation d’attributs (en anglais seulement) ni contre le risque qui en découle de pouvoir extraire des renseignements de nature sensible à partir des données publiéesNote de bas de page 9. Bien entendu, la question de savoir dans quelle mesure les lois sur la protection des renseignements personnels devraient réglementer la divulgation d’attributs sans réidentification fait toujours débatNote de bas de page 10 (en anglais seulement). Néanmoins, les données synthétiques permettent d’aborder la question sous un jour nouveau, compte tenu de leur plus grand potentiel de révéler des corrélations sensibles dans les données source qui ne sont pas connues du public. Certains chercheurs ont suggéré le recours à des examens éthiques (en anglais seulement) comme mécanisme de protection contre les risques de divulgation des attributsNote de bas de page 11.
De plus, compte tenu que les données synthétiques sont un élément catalyseur des systèmes d’IA et d’AA, elles soulèvent également des questions supplémentaires, alors que leur rôle et leur importance dans les techniques de dépersonnalisation plus classiques étaient peut-être moins déterminants. Contrairement à la statistique générale et à l’information s’y rapportant, l’IA et l’AA sont plus précises et davantage capables d’établir des prédictions et des décisions au niveau individuel qui peuvent porter atteinte de manière considérable aux droits et libertés des personnes. C’est pourquoi il est important d’examiner les données synthétiques dans le contexte plus large des systèmes d’IA et d’AA, car elles contribuent à leur développement. Il y a toutefois un problème principal à aborder :
- Elles peuvent reproduire les biais des systèmes d’IA et d’AA. La promesse que renferment les données synthétiques est de rendre les grands ensembles de données plus largement accessibles aux fins d’entraînement, de validation et de mise à l’essai des systèmes d’IA et d’AA. Cependant, lorsqu’elles sont utilisées comme technique de dépersonnalisation, les données synthétiques ne permettent pas de remédier au principal problème des données d’entraînement, à savoir qu’elles peuvent contenir des biais historiques ou d’autres types de biais qui seraient ensuite appris et finalement réifiés dans les systèmes d’IA et d’AA (en anglais seulement) qu’elles ont contribué à créerNote de bas de page 12. Si les données synthétiques permettent de protéger l’identité des personnes dont les propriétés et caractéristiques statistiques constituent les données d’entraînement, tout biais présent dans les données source à leur sujet sera reproduit par défaut. Au final, cela aurait une incidence sur les systèmes d’IA et d’AA au chapitre de l’équité et de la précision.
Sur ce plan, il est important de noter que les données synthétiques peuvent également être utilisées à d’autres fins que la dépersonnalisation, comme outil permettant de résoudre les problèmes de biais dans les données d’entraînement. Par exemple, elles peuvent être utilisées comme outil d’augmentation des données pour améliorer les ensembles de données déséquilibrés (en anglais seulement) en générant plus d’exemples de classes minoritairesNote de bas de page 13. Cependant, même dans ce cas, il faut veiller à ne pas reproduire les biais. Si l’augmentation des données ne fait que renforcer le signal déjà présent dans les données et que le signal en tant que tel est défectueux, alors les données synthétiques peuvent exacerber les biais (en anglais seulement) au lieu de les réduireNote de bas de page 14. L’utilisation de données synthétiques comme outil d’élimination des biais est un nouveau domaine de recherche.
Qu’en est-il de la combinaison des données synthétiques avec d’autres techniques de dépersonnalisation?
À ce stade, il est essentiel de se demander si les données synthétiques peuvent être combinées à d’autres techniques de dépersonnalisation pour aider à résoudre certains des risques pour la vie privée qui y sont inhérents. Si, par défaut, les données synthétiques continuent de susciter les mêmes inquiétudes que les techniques de dépersonnalisation plus classiques, une combinaison de techniques s’avérera peut-être plus efficace.
La réponse à cette question est, bien entendu, oui. Bien que les problèmes de biais potentiels ne soient pas pris en compte (du moins pas directement), des techniques de dépersonnalisation supplémentaires pourraient être appliquées à différentes étapes du processus de production afin de réduire les risques pour la vie privée. Il y a trois étapes importantes :
- Avant que le modèle génératif ne soit entraîné. Des techniques de dépersonnalisation telles que la généralisation ou la suppressionNote de bas de page 15 (en anglais seulement) peuvent être appliquées aux données source afin de supprimer ou de réduire la présence de valeurs aberrantes susceptibles de faire l’objet d’attaques par inférence d’appartenance.
- Quand le modèle génératif est en cours d’entraînement. La confidentialité différentielle peut être appliquée aux distributions statistiques apprises par le modèle génératif pour aider à se protéger contre les attaques par inférence d’appartenance ainsi que la réplication des données par surapprentissageNote de bas de page 16.
- Après l’entraînement du modèle génératif. La suppression peut être appliquée aux données synthétiques pour supprimer les fichiers trop exacts ou trop similaires à ceux des données sourceNote de bas de page 17.
Or, une nouvelle question se pose maintenant : dans quelle mesure les données synthétiques sont-elles réellement différentes des autres techniques de dépersonnalisation? Si leur application nécessite le recours à d’autres techniques de dépersonnalisation, les compromis entre vie privée et utilité ne sont-ils pas identiques ou similaires, y compris dans le cas du partage de données de grande dimension?
C’est ce que semble indiquer la recherche. Malgré les progrès que permettent de réaliser les données synthétiques par rapport aux techniques plus classiques de dépersonnalisation, elles ne sont pas une « solution miracle »Note de bas de page 18 (en anglais seulement). Selon Stadler et d’autres (en anglais seulement), « si un ensemble de données synthétiques préserve les caractéristiques des données originales avec grande précision, et conserve donc l’utilité des données pour les cas d’utilisation prévus, il permet par la même occasion aux adversaires d’extraire des renseignements de nature sensible sur les personnes en causeNote de bas de page 19 [traduction] ».
Conclusion
Dans le présent blogue, nous avons abordé divers aspects des données synthétiques afin de cerner autant que possible ce qui se cache derrière l’engouement que suscite ces données. D’après ce qui précède, la réalité est plutôt une combinaison complexe d’avantages et d’inconvénients. Certes, les données synthétiques offrent des avantages par rapport aux techniques plus classiques de dépersonnalisation, mais elles soulèvent également un ensemble unique de problèmes et de préoccupations. Comme toujours lorsqu’il est question de dépersonnalisation, la clé, c’est d’être conscient qu’il y a des risques à prendre en considération et des compromis à faire!
Principaux points à retenir
- Les données synthétiques sont une technique avancée de dépersonnalisation qui présente des avantages et des inconvénients.
- D’un côté :
- Elles peuvent protéger contre les attaques classiques de réidentification.
- Elles permettent de saisir les propriétés statistiques des ensembles de données de grande dimension.
- Le processus de dépersonnalisation peut être automatisé dans une plus large mesure.
- D’un autre côté :
- La réidentification est toujours possible si les fichiers dans les données source se trouvent dans les données synthétiques.
- Les valeurs aberrantes s’exposent à des attaques par inférence d’appartenance.
- En général, elles ne protègent pas contre la divulgation d’attributs.
- Aussi, elles peuvent reproduire les biais des systèmes d’IA et d’AA.
- La combinaison avec d’autres techniques de dépersonnalisation soulève les mêmes compromis (ou des compromis similaires) entre vie privée et utilité.