Sélection de la langue

Recherche

Blogue savoir techno : Technologies d’amélioration de la confidentialité pour les entreprises

Groupe de personne avec plusieurs types de technologie

Votre entreprise peut s’appuyer sur le nuage ou sur des technologies liées à l’Internet, telles que les tablettes, les téléphones portables et les appareils intelligents (qui font partie de l’Internet des objets), pour fournir des services, analyser des données et éclairer des décisions d’affaires. Il est de la plus haute importance de veiller à ce que les données de votre organisation et de vos clients restent confidentielles et soient protégées. Il existe un certain nombre d’outils que vous pouvez utiliser pour protéger les données que vous créez et recueillez. Ces outils sont connus sous le nom de « technologies d’amélioration de la confidentialité », ou TAC.

Depuis la publication de notre dernier rapport sur les TAC, plusieurs évolutions techniques importantes ont eu lieu dans ce domaine. Dans les mois à venir, nous consacrerons certains de nos billets du Blogue savoir techno à quelques-unes des TAC qui ont vu le jour depuis ce rapport, notamment :

  • l’apprentissage fédéré;
  • la confidentialité différentielle;
  • le chiffrement homomorphe;
  • le calcul multipartite sécurisé.

Ce billet-ci porte sur l’apprentissage fédéré et la confidentialité différentielle. Ces TAC sont encore en cours de perfectionnement et de développement pour une utilisation à grande échelle, et très peu d’organisations les ont mis en œuvre.

Nos prochains billets de blogue offriront aux entreprises des renseignements généraux sur ces nouvelles TAC et sur la manière dont elles pourraient être utiles pour améliorer la confidentialité des données. Si vous espérez mettre en œuvre ces nouvelles TAC dans votre entreprise, nous vous recommandons de suivre leur développement lors d’événements universitaires et de l’industrie.

L’apprentissage fédéré (alias l’analyse fédérée)

De nombreuses entreprises ont décidé d’automatiser certains de leurs processus et services, en s’appuyant souvent sur des techniques issues du domaine de l’intelligence artificielle. L’apprentissage automatique est l’une des techniques les plus populaires pour analyser des données et prendre des décisions ou faire des prévisions à partir de ces donnéesNote de bas de page 1. Entre autres, les organisations ont utilisé l’apprentissage automatique pour la reconnaissance d’images et de textes.

Les modèles d’apprentissage automatique sont généralement entraînés à l’aide de grandes quantités de données, qui sont souvent réparties dans plusieurs systèmes ou dispositifs de stockage de données. Ces systèmes et dispositifs peuvent être détenus par différentes personnes ou organisations situées dans des juridictions distinctes, ce qui rend difficile, voire impossible, de travailler directement avec elles. L’apprentissage fédéré est une technique qui peut aider votre entreprise à former un modèle à travers ses sources de données distribuées tout en protégeant le droit à la vie privée.

Dans l’apprentissage fédéré, les données originales ne sont jamais partagées ou déplacées. Les données restent en fait à leur emplacement d’origine (c’est-à-dire leur source). Chaque système d’apprentissage fédéré analyse les données locales à sa manière, mais de nombreux systèmes suivent des étapes similaires à celles décrites dans l’article fondateur sur le concept (en anglais seulement). Un modèle ou un algorithme centralisé est créé et des versions dupliquées de ce modèle sont envoyées à chaque source de données distribuée. Le modèle dupliqué s’entraîne à partir de chaque source de données locales et renvoie l’analyse qu’il génère. Cette analyse est synthétisée avec l’analyse d’autres sources de données et intégrée dans le modèle centralisé. Ce processus se répète à un rythme déterminé par le modèle centralisé, dans le but d’affiner et d’améliorer constamment le modèle.

On considère que l’apprentissage fédéré préserve la vie privée pour plusieurs raisons. Les données d’origine ne sont jamais partagées et les informations agrégées se prêtent généralement difficilement à une ingénierie inverse. La plupart des échanges entre les modèles locaux et centralisés font également appel à des méthodes de cryptage avancées. Bien que ces mesures offrent d’importantes protections de la vie privée, l’apprentissage fédéré n’est pas une solution parfaite pour tous les projets d’analyse de données.

L’un des principaux défis qui empêchent l’adoption généralisée de l’apprentissage fédéré est le coût des calculs du transfert régulier des informations agrégées vers le modèle centraliséNote de bas de page 2. Il peut être extrêmement coûteux de transférer même de petites quantités de données entre des millions d’appareils. La diversité des données sur les appareils complique davantage ce défi. Ce ne sont pas toutes les données qui peuvent être facilement analysées et synthétisées dans un modèle central. Par exemple, une entreprise qui vend des téléphones Android peut avoir du mal à synthétiser les données de ses anciens et nouveaux appareils, parce que le système d’exploitation, ou le matériel sous-jacent, a beaucoup changé.

Les chercheurs et les organisations s’efforcent de relever ces défis. Par exemple, pour résoudre le problème des coûts élevés, ils ont réduit la fréquence des transferts de données vers le modèle centralisé. Pour traiter les divers types de données, ils ont créé des modèles qui ne reposent pas sur la réception de données provenant de tous les appareils dans tous les scénarios. Certaines organisations ont choisi d’améliorer leurs systèmes d’apprentissage fédéré en intégrant des techniques de calcul supplémentaires, telles que la tolérance aux anomalies et la confidentialité différentielle.

La confidentialité différentielle

Commençons par un exemple. Imaginez que votre entreprise veuille adapter certains de ses services en fonction des comportements de ses clients. Vous avez recueilli des renseignements personnels sur leurs habitudes d’achat et d’utilisation des services. Vous souhaitez utiliser ces renseignements pour prévoir les tendances générales des visites et des achats futurs, afin de pouvoir embaucher le bon nombre de personnes, stocker les biens appropriés et utiliser des publicités ciblées pour vendre vos biens. Vous ne voulez pas que votre personnel puisse prévoir qui précisément visitera votre entreprise, quand il la visitera ou ce qu’il achètera. Une façon de relever ce défi en protégeant la vie privée est la confidentialité différentielle.

La confidentialité différentielle offre aux organisations une méthode officielle pour préserver la vie privée dans une certaine mesure. C’est un concept qui a émergé dans le domaine de la cryptographie, et beaucoup de ses termes et méthodes sont ancrés dans les mathématiques avancées. La confidentialité différentielle consiste essentiellement à ajouter une quantité mathématiquement définie de « bruit » – ou de fausses données – à un ensemble de données. Le bruit est ajouté à l’aide d’une équation qui rend très difficile, voire impossible, de dire qui ou ce qui se trouvait dans l’ensemble de données initial. Même les valeurs aberrantes dans l’ensemble de données sont mathématiquement prises en compte et masquées. L’ensemble de données résiste ainsi à un certain nombre de menaces pour la vie privée, notamment le couplage des données et les attaques par reconstructionNote de bas de page 3.

La mise en œuvre et la réalisation d’un mécanisme de confidentialité différentielle souhaitable ne constituent pas un processus simple ni une solution à tous les problèmes de confidentialité des données. Chaque ensemble de données est unique; la quantité et les types de bruit qui peuvent être ajoutés à chaque ensemble de données dépendent de ce que cet ensemble de données comprend, ainsi que de ce que son analyse est censée révéler. Par exemple, en 2014, des chercheurs ont démontré (en anglais seulement) à quel point il pouvait être préjudiciable d’appliquer la confidentialité différentielle à un ensemble de données destiné à guider les traitements médicaux. Pour permettre aux patients de préserver leur vie privée dans l’ensemble de données, ils seraient en fait « exposés à un risque accru d’accident vasculaire cérébral, d’épisodes hémorragiques et de mortalité »Note de bas de page 4. D’autres études ont révélé des résultats similaires et ont incité les chercheurs à continuer à affiner leurs approches de la mise en œuvre de la confidentialité différentielle.

L’intégration de la confidentialité différentielle dans un système d’apprentissage fédéré peut rendre les choses encore plus complexes qu’elles ne le sont déjà. Par conséquent, très peu d’entreprises ont mis en œuvre ces deux approches avec succès. On trouve les quelques cas d’utilisation qui existent dans les grandes entreprises technologiques, dont Google, Apple et Microsoft. Toutefois, les deux TAC offrent des approches très prometteuses pour les entreprises pour protéger la vie privée. D’autres exemples émergeront certainement de diverses entreprises dans les années à venir.

Principaux points à retenir

  • L’apprentissage fédéré peut aider les entreprises à entreprendre une analyse de données qui protège la vie privée sur plusieurs appareils et dans plusieurs sources de données.
  • La confidentialité différentielle est l’un des nombreux outils qui peuvent être utilisés pour réduire considérablement la probabilité que le couplage des données se produise et que des attaques par reconstruction surviennent.
  • Il y a eu beaucoup de développement théorique dans l’analyse fédérée et la confidentialité différentielle, mais il y a peu de cas d’utilisation dans les entreprises en raison de la complexité de ces TAC. Restez à l’affût de l’émergence d’autres cas d’utilisation des TAC au cours de la prochaine décennie.
Date de modification :