Enquête conjointe sur OpenAI OpCo, LLC
Menée par le Commissariat à la protection de la vie privée du Canada, la Commission d’accès à l’information du Québec, le Commissariat à l’information et à la protection de la vie privée de la Colombie-Britannique, et le Commissariat à l’information et à la protection de la vie privée de l’Alberta
Conclusions en vertu de la LPRPDE no 2026-002
Le 6 mai 2026
Table des matières
Plaintes émanant des commissaires
Collecte, utilisation et communication des renseignements personnels par OpenAI
Enjeu 3 : OpenAI a-t-elle suffisamment fait preuve de transparence au sujet de ses modèles?
Contexte
- Le présent rapport de conclusions examine la conformité d’OpenAI OpCo, LLC (appelée dans le document « OpenAI » ou « la partie intimée ») à la Loi sur la protection des renseignements personnels et les documents électroniques (LPRPDE) du Canada, à la Loi sur la protection des renseignements personnels dans le secteur privé du Québec (LPRPSP du Québec), à la Personal Information Protection Act de la Colombie-Britannique (PIPA de la Colombie-Britannique) et à la Personal Information Protection Act de l’Alberta (PIPA de l’Alberta), collectivement appelées les « Lois ».
OpenAI
- OpenAI, Inc. est une société mère qui exerce ses activités de recherche et de développement dans le domaine de l’intelligence artificielle (IA)Note de bas de page 1. Elle est enregistrée dans l’État du Delaware, aux États-Unis. Elle a été fondée en 2015 en tant qu’organisme à but non lucratif qui s’était fixé pour objectif de « veiller à ce que l’intelligence artificielle générale profite à l’ensemble de l’humanitéNote de bas de page 2 ». Elle n’a pas d’actionnaires et est contrôlée par un conseil d’administration.
- La partie intimée, la société exploitante qui fournit les produits d’OpenAI aux utilisateurs finaux, est une filiale d’OpenAI, Inc. Elle a également été enregistrée au Delaware, trois ans plus tard (en 2018). Son siège social est situé à San Francisco, en Californie, aux États-Unis.
- En 2019, OpenAI, Inc. a créé une autre filiale, soit une société à but lucratif ayant une structure de « bénéfices plafonnés » nommée OpenAI LP, afin d’amasser le capital nécessaire pour poursuivre le développement de sa technologieNote de bas de page 3. Peu de temps après, OpenAI LP a conclu un partenariat stratégique avec MicrosoftNote de bas de page 4.
- Le 28 octobre 2025, OpenAI a annoncé l’achèvement de la restructuration de sa société à but lucratif, qui est désormais une société d’intérêt public, appelée OpenAI Group PBC. La société à but non lucratif, OpenAI, Inc., s’appelle maintenant la OpenAI Foundation et continue de contrôler la société à but lucratifNote de bas de page 5.
- Selon OpenAI, le 31 mars 2025, le groupe de sociétés OpenAI était évalué à 300 milliards de dollars américainsNote de bas de page 6. En octobre 2025, plusieurs médias ont indiqué qu’OpenAI avait atteint une valeur de 500 milliards de dollars américains à la suite d’une vente secondaire d’actionsNote de bas de page 7. Plus récemment, OpenAI a annoncé un nouvel investissement de 110 milliards de dollars américains, dont la valorisation préfinancement est de 730 milliards de dollars américainsNote de bas de page 8.
- OpenAI mène des recherches sur l’IA et développe des modèles d’IA générative, une sous-catégorie de l’IA. Les modèles d’IA générative peuvent produire du contenu, comme du texte, des éléments audio, du code, des vidéos et des images. Ce contenu est généré en fonction de l’information saisie par l’utilisateur, appelée « invite », qui est généralement une question ou un court message présentant des instructions (par exemple, « Rédigez-moi un discours de mariage donné par un garçon d’honneur » ou « En savoir plus sur [nom d’une personne célèbre] »). L’invite peut également inclure des images de ce que l’utilisateur recherche.
- OpenAI offre un accès gratuit ou payant à ses modèles, qui sont utilisés par des personnes et par des organisations (pour ChatGPT Enterprise, ChatGPT Team et ChatGPT Edu)Note de bas de page 9. Depuis sa création, la société a lancé plusieurs produits, dont ChatGPT (qui produit du texte à partir d’invites comportant du texte, des images ou des messages vocauxNote de bas de page 10), présenté plus en détail ci-dessous, DALL·E (qui produit des images à partir d’invites comportant du texte ou des images)Note de bas de page 11 et Sora (qui génère des vidéos à partir d’instructions sous forme de texte)Note de bas de page 12. Notre enquête visait uniquement certaines versions de ChatGPT, comme il est décrit plus en détail au paragraphe 16.
ChatGPT
- ChatGPT a été lancé en novembre 2022. Il s’agit d’un service axé sur la conversation qui peut répondre aux invites des utilisateurs et créer divers types de contenu, notamment des articles, du code informatique et des poèmes.
- ChatGPT est alimenté par un grand modèle de langage (GML). Les GML sont des systèmes d’apprentissage machine très vastes et complexes qui sont capables de générer couramment du contenu détaillé et plausible – mais pas nécessairement exact – en réponse aux requêtes portant sur pratiquement n’importe quel sujet.
- Au moment de son lancement, ChatGPT était alimenté par un GML appelé GPT-3.5. En mars 2023, OpenAI a lancé GPT-4, qui, en septembre 2023, a été amélioré par l’ajout d’une fonctionnalité permettant de joindre des images. Depuis, OpenAI a régulièrement mis à niveau ses modèles et lancé de nouvelles versions de ceux-ciNote de bas de page 13.
Modèle économique d’OpenAI
- Le modèle économique d’OpenAI en ce qui a trait à ChatGPT est principalement basé sur deux grands secteurs d’activité :
- L’accès direct à ChatGPT et à d’autres produits (qui ne sont pas visés par notre enquête), au moyen d’un abonnement gratuit ou premium, notamment aux versions Team, Edu et Enterprise de ChatGPT qui offrent des capacités avancées et des options de personnalisation. En avril 2024, OpenAI a annoncé que les utilisateurs pouvaient utiliser la version gratuite de ChatGPT, et ce, sans qu’il soit nécessaire d’avoir un compteNote de bas de page 14.
- Une plateforme d’interface de programmation d’applications (API)Note de bas de page 15, qui permet aux clients de l’API de créer des applications alimentées par les modèles d’OpenAI. Les API permettent aux clients d’intégrer les capacités des modèles d’IA offerts par OpenAI à leurs propres applications, produits ou services, qu’ils peuvent ensuite mettre à la disposition de leurs propres utilisateurs finaux et clients. OpenAI facture des frais pour l’utilisation de l’API en fonction de la consommation (c’est-à-dire selon une approche de « paiement à l’utilisation »)Note de bas de page 16.
- Selon OpenAI, en janvier 2024, ChatGPT comptait chaque mois au Canada plusieurs millions d’utilisateurs actifsNote de bas de page 17 et plusieurs centaines de milliers d’abonnés payants (Chat GPT Plus). Au Québec, en Colombie-Britannique et en Alberta, la base d’utilisateurs était considérable.
Plaintes émanant des commissaires
- En avril 2023, le Commissariat à la protection de la vie privée du Canada (CPVP) a lancé une enquête sur OpenAI en réponse à une plainte alléguant que l’organisation avait recueilli, utilisé et communiqué les renseignements personnels de la partie plaignante sans son consentement.
- En mai 2023, compte tenu de l’incidence importante de l’IA générative sur la vie privée et de sa pertinence pour tous les Canadiens, le CPVP a décidé de fermer la plainte initiale et, en collaboration avec la Commission d’accès à l’information du Québec (CAI), le Commissariat à l’information et à la protection de la vie privée de la Colombie-Britannique (CIPVP de la Colombie-Britannique), et le Commissariat à l’information et à la protection de la vie privée de l’Alberta (CIPVP de l’Alberta), collectivement appelés « les Commissariats », a lancé des enquêtes conformément au paragraphe 11(2) de la LPRPDE, à l’article 81 de la LPRPSP du Québec, à l’alinéa 36(1)a) de la PIPA de la Colombie-Britannique et à l’alinéa 36(1)a) de la PIPA de l’Alberta respectivement. Les Commissariats ont décidé de mener les enquêtes conjointement afin de tirer parti de leur expertise et de leurs ressources respectives, tout en évitant le dédoublement des efforts pour les Commissariats et OpenAI.
- Les Commissariats se sont penchés précisément sur ChatGPT et les modèles sous-jacents qui l’alimentaient au moment où l’enquête a été lancée (c’est-à-dire GPT-3.5 et GPT-4, à l’exclusion des dernières versions). Les Commissariats n’ont pas évalué les modèles ultérieurs (nous avons toutefois considéré le caractère adéquat de nouvelles mesures mises en œuvre par OpenAI en réponse à notre rapport d’enquête préliminaire) ni les autres services d’IA d’OpenAI (comme la génération d’images ou de vidéos). Cependant, les conclusions du présent rapport pourraient encore être pertinentes pour ceux-ci, si leur processus de développement et de déploiement est semblable à celui utilisé pour GPT-3.5 et GPT-4 (par exemple, des modèles conçus pour imiter les conversations humaines et utilisant des techniques d’entraînement comme l’apprentissage par renforcement, dont il sera question plus loin dans le rapport).
- La portée de l’enquête ne visait pas les applications potentielles illimitées de l’outil par les clients d’OpenAI (par exemple, les clients de l’API, les développeurs de GPTNote de bas de page 18, les utilisateurs individuels).
Enjeux
- Notre enquête visait à déterminer si OpenAI :
- a recueilli, utilisé ou communiqué des renseignements personnels à des fins qu’une personne raisonnable estimerait acceptables dans les circonstances et si la collecte vise uniquement des renseignements nécessaires à ces finsNote de bas de page 19;
- a obtenu un consentement valide pour la collecte, l’utilisation et la communication des renseignements personnels par l’intermédiaire de ChatGPT ou relativement à celui-ci pour les individus se trouvant au Canada;
- a rempli son obligation de faire preuve de transparence;
- a pris des mesures raisonnables pour veiller à ce que les renseignements que ChatGPT produit sur les individus soient aussi exacts, complets et à jour que nécessaire selon les fins auxquelles ils doivent être utilisés;
- a donné aux individus la possibilité d’accéder à leurs renseignements personnels et de les corriger;
- s’est acquittée de son obligation d’établir des procédures appropriées pour la conservation et le retrait des renseignements personnels qu’elle recueille, utilise et communique;
- a assumé la responsabilité des renseignements personnels dont elle a la gestion.
Méthodologie
- Pour mener l’enquête, les Commissariats ont pris en compte l’information provenant de diverses sources, notamment :
- les observations écrites exhaustives fournies aux Commissariats par la partie intimée par l’intermédiaire de son conseiller juridique. Ces observations comprenaient notamment la description des mesures et des outils de protection de la vie privée mis en œuvre par OpenAI aux différents stades du développement et du déploiement de ses modèles, ainsi que les résultats des évaluations internes d’OpenAI visant ces mesures et outils;
- les renseignements que les Commissariats ont recueillis au cours d’entrevues réalisées auprès de plusieurs employés d’OpenAI, menées au siège social de la partie intimée à San Francisco, aux États-Unis, et en mode virtuel, ainsi qu’aux bureaux du CPVP à Gatineau, au Canada;
- les essais internes de ChatGPT (versions 3.5 et 4) du point de vue de l’utilisateur, qui ont été effectués par l’équipe d’enquête dans le laboratoire technique du CPVP entre novembre 2023 et mai 2024. L’équipe a notamment mené des essais visant le processus de création de comptes, fait l’examen du contenu et de la fréquence des notifications d’OpenAI sur l’exactitude, utilisé l’outil d’exportation des données d’OpenAI, acquis une meilleure compréhension des critères qu’OpenAI applique pour déterminer qui est une personnalité publique, et interagit de façon plus générale avec ChatGPT pour répliquer l’expérience utilisateur;
- les renseignements recueillis et analysés par les Commissariats provenant de sources accessibles au public concernant des questions pertinentes à l’enquête (par exemple, les articles médiatiques, les études publiées par OpenAI ou des experts indépendants du domaine de l’IA). Nous ne nous sommes pas fiés à ces sources pour appuyer nos conclusions, mais nous les avons plutôt utilisées comme des références pour illustrer certaines pratiques et fournir un contexte, lorsque c’était pertinent.
- À la fin de la phase de collecte des éléments de preuve de notre enquête, les Commissariats ont produit un rapport préliminaire d’enquête (le rapport préliminaire), qui présentait la justification de leurs conclusions préliminaires, ont établi un certain nombre de recommandations pour qu’OpenAI se conforme aux Lois et ont invité OpenAI à fournir une réponse. Ils ont également rencontré OpenAI à diverses occasions pour offrir la possibilité à la société de poser des questions sur le rapport préliminaire et de discuter de tout défi perçu pour la réponse à leurs recommandations.
- Dans sa réponse écrite finale, OpenAI a soutenu qu’elle se conformait aux Lois à presque tous les égards, au moyen d’une combinaison de pratiques existantes et de communications connexes. OpenAI a également fourni de nouvelles informations et explications sur les mesures qu’elle a récemment mises en œuvre en lien avec le développement et le déploiement de ChatGPT. Ces mesures n’ont pas été appliquées aux versions GPT-3.5 et GPT-4, mais uniquement aux versions ultérieures des modèles.
Analyse
Juridiction
- Comme il a été mentionné précédemment, la partie intimée est constituée en société aux États-Unis. Cela dit, dans le cadre de ses activités commerciales, OpenAI recueille, utilise et communique les renseignements personnels des individus qui utilisent la plateforme ChatGPT au Canada, incluant notamment des utilisateurs situés dans les provinces de l’Alberta, de la Colombie-Britannique et du Québec, comme il est expliqué dans la section suivante du présent rapport.
- Néanmoins, OpenAI a contesté la compétence des Commissariats (en totalité et en partie) en donnant pour motif que ChatGPT n’a pas été déployé au Canada avant le 30 novembre 2022 et qu’OpenAI n’avait aucun établissement ni employé au Canada avant cette date. OpenAI a également estimé que les Lois ne s’appliquent pas aux résultats générés et utilisés par les utilisateurs finaux de ChatGPT dans les cas où ces résultats sont obtenus à des fins personnelles et domestiques. Enfin, OpenAI a contesté plus précisément la compétence du CIPVP de la Colombie-Britannique.
- Les Lois en vertu desquelles l’enquête a été menée s’appliquent aux organisations qui, dans le cadre de leurs activités commerciales, recueillent, utilisent et communiquent les renseignements personnels des individus situés dans chacune des provinces. Ainsi, chacun des Commissariats ayant entrepris la présente enquête a déterminé qu’il avait la compétence pour enquêter et formuler des recommandations ou émettre des ordonnancesNote de bas de page 20 concernant le traitement des renseignements personnels par OpenAI dans le cadre de sa compétence respective, qu’elle soit provinciale ou fédéraleNote de bas de page 21.
- De plus, la LPRPDE s’applique aux organisations de l’extérieur du Canada qui ont un lien réel et substantiel avec le CanadaNote de bas de page 22. Selon nous, les circonstances de la présente affaire démontrent clairement qu’il existe un lien réel et substantiel avec le Canada. Pour en arriver à cette conclusion, nous avons tenu compte des facteurs suivants :
- OpenAI offre ses services au Canada, et il y a des utilisateurs actifs chaque mois pour ChatGPT, notamment des abonnés payants (par exemple, pour ChatGPT Plus) au Canada.
- Les conditions d’utilisation d’OpenAI pour ChatGPT s’appliquent aux utilisateurs du Canada et mentionnent le consentement à la collecte, à l’utilisation et à la communication de renseignements personnels, ainsi que les droits d’accès et de correction connexes.
- Les utilisateurs situés au Canada peuvent visiter le site Web d’OpenAI et utiliser ChatGPT.
- Nous notons qu’OpenAI mène ses activités exclusivement par l’intermédiaire d’un site Web ou d’une application. Tel qu’il est indiqué au paragraphe 54 de la décision A.T. c. Globe24h.comNote de bas de page 23, une présence physique au Canada n’est pas nécessaire pour établir un lien réel et substantiel lorsqu’il s’agit d’examiner des sites Web au regard de la LPRPDE, car les télécommunications se font [traduction] « à la fois ici et à l’autre endroit ».
- Les activités d’OpenAI nécessitent la transmission et la réception de renseignements personnels entre le Canada et les États-Unis, tant lors de la collecte d’information que de leur communication par le biais de ChatGPT.
- OpenAI a recueilli, utilisé et communiqué les renseignements personnels d’utilisateurs au Canada, ou provenant de sources canadiennes, afin de développer et de déployer ChatGPT.
- De la même façon, comme le mentionne le rapport d’enquête sur LifeLabsNote de bas de page 24, le commissaire à la protection de la vie privée de l’Alberta a compétence pour mener des enquêtes sur la conformité en vertu de la PIPA de l’Alberta. De plus, une organisation qui recueille, utilise ou communique des renseignements personnels en Alberta doit se conformer à la législation de l’Alberta sur la protection de la vie privée, ce qui comprend tous les aspects liés à la conformité, comme il est prévu à l’alinéa 36(1)a) de la PIPA de l’Alberta. Si une organisation recueille, utilise ou communique des renseignements personnels en Alberta, les pratiques dans l’ensemble de l’organisation doivent respecter la PIPA de l’AlbertaNote de bas de page 25. Enfin, comme il est mentionné dans la décision concernant ClearviewNote de bas de page 26, le commissaire à la protection de la vie privée de l’Alberta a compétence à l’égard de Clearview parce que l’entreprise a choisi d’exercer ses activités en Alberta et recueille, utilise et communique les renseignements personnels d’Albertaines et d’Albertains, dont certains sont hébergés sur des sites Web ayant des serveurs en Alberta.
- Tout comme les autres Commissariats, la CAI ne retient pas l’argument relatif à la juridiction soulevé par OpenAI et appuie les motifs que l’on retrouve au paragraphe 25 du présent rapport.
- Plus précisément, l’article 1 de la LPRPSP du Québec établit les bases d’application de la Loi et de la juridiction de la CAI. Cet article précise que la LPRPSP a pour objet d’établir, pour l’exercice des droits conférés par les articles 35 à 40 du Code civil du QuébecNote de bas de page 27 en matière de protection des renseignements personnels, des règles particulières à l’égard des renseignements personnels sur autrui qu’une personne, recueille, utilise ou communique à des tiers à l’occasion de l’exploitation d’une entreprise au sens de l’article 1525 du Code civil du QuébecNote de bas de page 28.
- OpenAI a recueilli et utilisé des renseignements personnels concernant des individus situés au Québec aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4, ce qui constitue un lien réel et important avec le QuébecNote de bas de page 29.
- Comme le souligne l’honorable juge Abella dans le cadre de l’arrêt Google Inc. c. Equustek Solutions Inc., « L’Internet n’a pas de frontières — son habitat naturel est mondial. » Ainsi, considérant la nature des activités d’OpenAI, la CAI estime que l’absence de tout établissement et d’employés au Québec ne fait pas obstacle en soi à l’application de la LPRPSP.
- L’atteinte à la vie privée qui peut résulter de la collecte et de l’utilisation des renseignements personnels des Canadiens, et plus particulièrement des Québécois, intervient au lieu de résidence des personnes concernées par ces renseignements et ce lieu de résidence constitue un facteur de rattachement suffisant en l’instanceNote de bas de page 30.
- De plus, la CAI considère que pour l’exploitation de son entreprise, et plus particulièrement aux fins de soutenir les fonctionnalités de ses modèles GPT-3.5 et GPT-4, OpenAI détient et utilise toujours des renseignements personnels qui concernent des résidents du Québec.
- Pour finir, considérant la nature des produits ou des services offerts par OpenAI et le contexte dans lequel la collecte, l’utilisation et la communication des renseignements personnels ont été et sont encore effectuées, la CAI estime qu’OpenAI est soumise à la LPRPSP en ce qui a trait à la collecte, l’utilisation et la communication des renseignements personnels qui concernent les résidents du Québec.
Contestation par OpenAI de la compétence du CIPVP de la Colombie-Britannique
- Dans sa réponse au rapport préliminaire, OpenAI a soutenu que le CIPVP de la Colombie-Britannique et le CPVP ne peuvent avoir compétence tous les deux sur l’objet de l’enquête. Pour appuyer cet argument, OpenAI a mentionné l’alinéa 3(2)c) de la PIPA de la Colombie-Britannique, qui prévoit ce qui suit :
[traduction]
(2) La présente loi ne s’applique pas à l’égard de ce qui suit :
… c) la collecte, l’utilisation ou la communication de renseignements personnels, si la loi fédérale s’applique à la collecte, à l’utilisation ou à la communication de renseignements personnels […]Note de bas de page 31 - Cet argument a été traité en profondeur dans le cadre d’enquêtes conjointes antérieures auxquelles le CIPVP de la Colombie-Britannique a participéNote de bas de page 32.
- Le décret d’exclusion DORS/2004-220, émis en vertu de la LPRPDE, exempte clairement une organisation de l’application de la partie 1 de la LPRPDE à la collecte, à l’utilisation ou à la communication de renseignements personnels par cette organisation si l’activité a lieu en Colombie-BritanniqueNote de bas de page 33. Par conséquent, comme OpenAI est une organisation, la collecte, l’utilisation ou la communication de renseignements personnels par OpenAI relève de la PIPA de la Colombie-Britannique plutôt que de la partie 1 de la LPRPDE si de telles activités ont lieu en Colombie-Britannique.
- La réglementation sur la protection des renseignements personnels est une question de compétence concurrente et un exercice de fédéralisme coopératifNote de bas de page 34. Le fédéralisme coopératif est un principe fondamental de cette division moderne des pouvoirs, et la jurisprudence reflète l’application simultanée des lois adoptées par les paliers fédéral et provincial du gouvernementNote de bas de page 35. La PIPA de la Colombie-Britannique est conçue pour s’harmoniser avec les lois fédérales dans sa protection du droit quasi constitutionnel à la vie privée des individus de la Colombie-BritanniqueNote de bas de page 36.
- L’histoire législative de l’adoption de la LPRPDENote de bas de page 37 et de la PIPA de la Colombie-BritanniqueNote de bas de page 38, ainsi que leur structure étroitement liée, appuie l’interprétation que la LPRPDE et la PIPA de la Colombie-Britannique s’appliquent ensemble de façon harmonieuse. De plus, la Cour d’appel de la Colombie-Britannique a récemment confirmé la compétence du CIPVP de la Colombie-Britannique dans le cadre d’une enquête conjointe qui portait sur une organisation exerçant ses activités dans plusieurs provinces et paysNote de bas de page 39.
- La présente enquête concerne une seule organisation exerçant ses activités dans les deux juridictions, notamment des activités complexes de collecte, d’utilisation et de communication de renseignements personnels. Selon nous, une interprétation de l’alinéa 3(2)c) qui enlève le pouvoir du CIPVP de la Colombie-Britannique dans toute circonstance où le CPVP exerce également son pouvoir serait incompatible avec l’approche actuelle en matière de réglementation de la protection de la vie privée au Canada et constituerait un obstacle au principe du fédéralisme coopératif.
- Par conséquent, le CIPVP de la Colombie-Britannique conclut que l’alinéa 3(2)c) de la PIPA de la Colombie-Britannique n’empêche pas que cette loi s’applique à la collecte, à l’utilisation ou à la communication de renseignements personnels par OpenAI en Colombie-Britannique, et ne limite pas la compétence du CIPVP de la Colombie-Britannique pour la participation à cette enquête de quelque façon que ce soit.
Contestation par OpenAI de la compétence des Commissariats avant le lancement de ChatGPT
- Comme il a été mentionné précédemment, dans sa réponse au rapport préliminaire, OpenAI a présenté des observations dans lesquelles, selon elle, en l’absence de tout établissement, employé ou autre facteur donnant lieu à un lien réel et substantiel avec le Canada avant le lancement de ChatGPT le 30 novembre 2022, les Commissariats ne peuvent avoir compétence sur les activités d’OpenAI réalisées avant cette date, et les Lois ne peuvent pas s’y appliquer.
- Après avoir examiné attentivement ces arguments, nous sommes en désaccord avec l’affirmation d’OpenAI et constatons que plusieurs facteurs confirment qu’il y avait un lien réel et substantiel avec le Canada avant le 30 novembre 2022. Plus précisément :
- Comme l’a reconnu OpenAI, le développement de ChatGPT avant son lancement consistait en partie à recueillir des renseignements personnels d’individus au Canada ou provenant de sources canadiennes (par exemple, les plateformes en ligne canadiennes) et reposait en partie sur le fait de recueillir de tels renseignements. Ce développement, qui a eu lieu bien avant le lancement de ChatGPT au Canada, est inextricablement lié à l’activité commerciale visant le déploiement du service.
- OpenAI a conservé les ensembles de données qui contiennent ces renseignements personnels et continue de les utiliser aux fins de l’entraînement de ses modèles d’IA.
Utilisation de ChatGPT à des fins personnelles ou domestiques
- OpenAI a indiqué que les Lois ne s’appliquent pas aux résultats générés et utilisés par les utilisateurs finaux de ChatGPT dans les cas où ces résultats sont obtenus à des fins personnelles ou domestiques. Les Commissariats reconnaissent que quelques-unes des Lois contiennent des exemptions relatives à la collecte, à l’utilisation ou à la communication de renseignements personnels à des fins personnelles ou domestiquesNote de bas de page 40. Ces dispositions visent cependant à exempter les individus qui font un usage personnel ou domestique des renseignements, et non les organisations qui exercent des activités commerciales. De plus, pour que ces exemptions s’appliquent, la collecte, l’utilisation et la communication doivent être exclusivement effectuées à des fins personnelles ou domestiquesNote de bas de page 41. Comme il est clairement indiqué aux paragraphes 12 à 13 du présent rapport, il n’est pas possible de qualifier de façon crédible les fins de l’exploitation de ChatGPT par OpenAI d’exclusivement personnelles ou domestiques.
Objectifs des LoisNote de bas de page 42
- Les applications d’IA génératives comme ChatGPT pourraient avoir une incidence non seulement sur le droit à la protection de la vie privée, mais aussi sur le droit à la liberté d’expression, qui est protégé par l’alinéa 2b) de la Charte canadienne des droits et libertés (la Charte). Sous réserve de certaines exceptions, ce droit garanti par la Charte peut s’appliquer à toute activité qui « transmet ou tente de transmettre une significationNote de bas de page 43 ». En plus du fait qu’ils pourraient contenir des renseignements personnels, les invites et les résultats générés par ChatGPT peuvent être un exemple de contenu expressif. Par conséquent, toute limitation à l’exploitation de ChatGPT peut à son tour limiter le droit à la liberté d’expression protégé par la Charte, par exemple, en ce qui concerne les utilisateurs de ChatGPT.
- Dans les observations transmises aux Commissariats, OpenAI a souligné que ChatGPT peut promouvoir l’éducation, la recherche, la créativité et l’innovation. OpenAI a aussi fait valoir que l’analyse des Commissariats devrait tenir compte des valeurs de la Charte, une proposition avec laquelle le CPVP, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta ne sont pas en désaccord. En plus de tenir compte de la nécessité d’assurer un équilibre entre les besoins des organisations et le droit à la vie privée des individus conformément aux objectifs de certaines des LoisNote de bas de page 44, l’analyse qui suit tient également compte des valeurs de la Charte visant la liberté d’expression et la protection de la vie privée. À cet égard, le CPVP, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta ont adopté l’approche utilisée par le CPVP dans son récent rapport de conclusions concernant les résultats de recherche de GoogleNote de bas de page 45. Dans ce rapport, en tirant parti de la jurisprudence de la Cour suprême du Canada, le CPVP a noté que, lorsque les valeurs consacrées par la Charte sont en jeu, les décideurs administratifs doivent mettre en balance les objectifs visés par les lois qu’ils administrent avec les valeurs pertinentes consacrées par la Charte (en particulier la liberté d’expression et la protection de la vie privée)Note de bas de page 46. Dans ce cas, l’évaluation par les Commissariats des fins acceptables prévues par les Lois (enjeu 1) tient compte des valeurs de la Charte.
- En plus des valeurs de la Charte, conformément à la décision de la Cour d’appel fédérale dans Englander c. TELUS Communications Inc., le CPVP, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta interprètent leurs lois respectives en suivant les critères « de la souplesse, du sens commun et du pragmatismeNote de bas de page 47. » Cette décision est conforme à l’approche moderne de l’interprétation législative, qui indique qu’« [i]l faut lire les termes d’une loi dans leur contexte global en suivant le sens ordinaire et grammatical qui s’harmonise avec l’économie de la loi, l’objet de la loi et l’intention du législateurNote de bas de page 48 ». Le récent arrêt de la Cour suprême dans l’affaire Telus Communications Inc. c. Fédération canadienne des municipalités précise que pour une approche moderne de l’interprétation législative, il faut une interprétation « dynamique » des lois dans une mesure qui « peut s’appliquer à de nouvelles circonstances, y compris de nouvelles technologies […] conformément à l’objectif du législateurNote de bas de page 49. » Finalement, les tribunaux ont également reconnu que la LPRPDE est une loi quasi constitutionnelle et qu’elle « s’inscri[t] dans une tendance internationale vers la reconnaissance d’un plus grand droit de regard des personnes sur les renseignements personnels les concernant », qui « est intimement lié à [leur] autonomie, à [leur dignité] et à [leur] droit à la vie privée ». Les tribunaux reconnaissent aussi le « rôle fondamental que joue le respect de la vie privée dans le maintien d’une société libre et démocratiqueNote de bas de page 50 ».
Contexte technique
Entraînement des modèles
- Le fonctionnement d’un grand modèle de langage (GML) repose sur un grand nombre de pondérations numériques, qui représentent la relation statistique entre différents mots (ou parties de mots, qui sont convertis en chaînes numériques appelées « jetons ») dans divers contextesNote de bas de page 51. Ces pondérations sont déterminées en fonction de la façon dont sont traitées les données d’entraînement du GML et peuvent être modifiées à mesure que le GML est entraîné.
- Pour entraîner les modèles GPT-3.5 et GPT-4 qui alimentaient ChatGPT, OpenAI a utilisé un processus en deux étapes, qui est décrit ci-dessous en termes simplifiésNote de bas de page 52.
- Préentraînement (aussi appelé « apprentissage autosupervisé ») :
- Au cours de cette phase initiale, le modèle acquiert une compréhension généraleNote de bas de page 53 du langage (ou, plus techniquement, il s’agit d’une fonctionnalité générale dans le traitement du langage naturel) en analysant de vastes quantités de données textuelles non structurées et segmentées en jetons, notamment des données qui peuvent comprendre des renseignements personnels.
- Comme il est mentionné plus loin au paragraphe 51, les ensembles de données de préentraînement sont généralement composés i) de renseignements recueillis à partir de sites Web accessibles au publicNote de bas de page 54 (remarque : OpenAI retire certaines catégories limitées de sites Web, le contenu redondant et le contenu qui contrevient à ses politiques) et ii) de données ayant fait l’objet d’une autorisation accordée par un tiers. En réponse à notre rapport préliminaire, OpenAI a indiqué que, pour les éléments des points i) et ii), elle utilise maintenant un outil pour détecter et masquer les renseignements permettant d’identifier des particuliers dans les données de préentraînement (voir ci-dessous).
- En se basant sur les données du préentraînement, le modèle crée une représentation de la relation statistique générale entre les jetons et, à partir de cette information, il apprend à prédire continuellement le jeton suivant dans une phrase.
- Affinage (ou ajustement) – Cette phase vise à améliorer davantage la performance du modèle en ce qui a trait à des tâches et des domaines précis (par exemple, la traduction, la synthèse de l’information, la conversation) en perfectionnant la façon dont le modèle se comporte et les corrélations statistiques qu’il établit entre les jetons. Ainsi, on contribue à ce que le modèle puisse fournir plus de réponses que les gens jugent comme étant utiles et on l’empêche de fournir une réponse qui pourrait causer un préjudice (par exemple, une réponse qui constituerait un discours haineux ou qui comporterait les renseignements personnels d’un particulier). L’affinage comprend l’utilisation d’un sous-ensemble de données recueillies au moyen des interactions que les personnes ont avec ChatGPT ainsi que l’information fournie par les personnes chargées de l’entraînement (voir le paragraphe 51). Il est divisé en sous-étapes, qui comprennent ce qui suit :
- Apprentissage supervisé – Le modèle est entraîné sur des exemples de comportements « idéaux » écrits par les personnes chargées de l’entraînement, et ce, afin de démontrer le type de réponses que le modèle devrait fournir aux diverses invites qu’il pourrait recevoir.
- Apprentissage par renforcement à partir de la rétroaction humaine – Le modèle est « récompensé » s’il répond de façon éthique et appropriée aux invites des utilisateurs (c’est-à-dire en fournissant des réponses pertinentes, sécuritaires, exactes et sans préjugés) et le renforcement ou la « récompense » est moindre dans le cas contraire. Concrètement, les personnes chargées de l’entraînement examinent plusieurs réponses du GML à la même invite et classent celles-ci en fonction de leur pertinence ou de leur caractère éthique, selon un ordre décroissant. À mesure que le modèle « apprend » de cette rétroaction, les pondérations statistiques des mots sont modifiéesNote de bas de page 55.
Figure 1 – Entraînement des modèles (GPT-3.5 et GPT-4) Version textuelle de la figure 1
La figure 1 montre les différentes phases de l’entraînement de ChatGPT:
Phase 1 PRÉENTRAÎNEMENT : Le modèle crée une représentation de la relation statistique générale entre les jetons et apprend à prédire continuellement le jeton suivant dans une phrase.
L’ensemble de données de préentraînement est composé de données accessibles au public (plus de 99% de l’ensemble de données, billions de mots), dont OpenAI retire des catégories limitées de sites Web et du contenu redondant, et d’ensembles de données sous licence (moins de 1% de l’ensemble de données). OpenAI filtre le contenu en fonction des retraits de consentement.
Phase 2 AFFINAGE : On améliore la performance du modèle pour une tâche précise et l’on affine les corrélations statistiques entre les jetons, par le bais de l’apprentissage supervisé et de l’apprentissage renforcé.
Les ensembles de données destinées à l’affinage sont composés de texte généré par les personnes chargées de l’entraînement et d’interactions des utilisateurs avec ChatGPT (entrées et résultats) dont le contenu a été filtré en fonction du retrait du consentement et des renseignements permettant d’établir l’identité d’un individu.
- Préentraînement (aussi appelé « apprentissage autosupervisé ») :
Génération de texte par ChatGPT
- Voici une description générale du processus technique par lequel ChatGPT génère une réponse à une invite d’un utilisateur :
- ChatGPT reçoit le texte saisi par les utilisateurs sous la forme d’une invite (ce concept est défini au paragraphe 7).
- Le GML (par exemple, GPT-3.5 ou GPT-4) divise le texte saisi en jetons.
- Pour créer une réponse, les jetons de la saisie sont traités par le GML, qui génère un premier jeton de sortie (souvent, mais pas toujours, le plus probable sur le plan statistique). Les jetons de sortie subséquents sont générés par le GML, et ce, en tenant compte à la fois des jetons de la saisie et des jetons de sortie déjà générés.
- La série de jetons générés par le GML est ensuite reconvertie en texte lisible par l’humain, qui est fourni comme résultat ou réponse à l’invite de l’utilisateur.
Collecte, utilisation et communication des renseignements personnels par OpenAI
- Invoquant des considérations relatives à la sécurité, à la confidentialité et aux opérations, OpenAI n’a pas accepté notre demande visant à accéder à ses systèmes et à les examiner. Dans ses observations fournies aux Commissariats, OpenAI a toutefois reconnu qu’elle recueille, utilise et communique des renseignements personnels dans le cadre de ses activités. Par conséquent, les Commissariats considèrent que cette reconnaissance constitue une preuve que les renseignements recueillis, utilisés et communiqués par OpenAI contiennent des renseignements personnels au sens des Lois.
- Plus particulièrement, OpenAI a indiqué dans ses observations que, pour développer ou entraîner ses modèles et faciliter les interactions des utilisateurs avec ChatGPT, elle recueille des données qui proviennent de quatre sources principales d’information. Chacune des sources, qui sont présentées ci-dessous, peut comprendre des renseignements personnelsNote de bas de page 56 :
- Les renseignements provenant de sources Internet accessibles au public, ce qui, selon OpenAI, représente actuellement la grande majorité de ce qui se trouve dans ses ensembles de données d’entraînementNote de bas de page 57. OpenAI recueille ces renseignements de l’une des façons suivantes :
- par des tiers tels que Common CrawlNote de bas de page 58 ou Wikipédia, qui ont déjà recueilli les renseignements et les ont rendus disponibles. OpenAI a indiqué qu’elle ne contournait pas les processus liés aux verrous d’accès payant ou aux sites Web protégés par des comptes lors de la collecte de ces données; ou
- au moyen de son GPTBot. Cet outil explore et moissonne le contenu des sites Web sur Internet. Les propriétaires de site Web peuvent toutefois choisir de limiter l’accès de GPTBotNote de bas de page 59.
- Les renseignements pour lesquels OpenAI a reçu l’autorisation d’un tiers, y compris ceux de divers médias, d’un important fournisseur d’images d’archives et d’autres sources de connaissances spécialiséesNote de bas de page 60. OpenAI a indiqué qu’elle établissait des partenariats avec ces fournisseurs de contenu pour veiller à ce que du contenu de haute qualité soit inclus dans ses ensembles de données d’entraînement, notamment sur des sujets spécialisés, tels que les sciences et les mathématiques.
- Les interactions des utilisateurs avec ChatGPT (c’est-à-dire ce qui est saisi dans le modèle et le résultat obtenu, les téléchargements d’images et de fichiers, la rétroaction de l’utilisateur sur l’utilité de la réponse fournie par ChatGPT). Les utilisateurs peuvent choisir que ces données ne soient pas utilisées pour l’entraînement des modèles, comme il est expliqué plus en détail au paragraphe 303Note de bas de page 61.
- Les conversations générées par les personnes chargées de l’entraînement de l’IA (les employés et les fournisseurs d’OpenAI). Comme il a été question au paragraphe 48, les personnes chargées de l’entraînement créent des conversations en rédigeant des questions et des réponses idéales pour affiner le modèle. Ces personnes évaluent et classent également diverses réponses générées par les modèles en fonction de leur qualité, sûreté et pertinence.
- Les renseignements provenant de sources Internet accessibles au public, ce qui, selon OpenAI, représente actuellement la grande majorité de ce qui se trouve dans ses ensembles de données d’entraînementNote de bas de page 57. OpenAI recueille ces renseignements de l’une des façons suivantes :
- OpenAI a indiqué que l’inclusion de renseignements personnels dans ses ensembles de données d’entraînement est accessoire à l’objectif plus large d’obtenir un vaste corpus textuel dont le contenu est varié, ce qui est nécessaire pour entraîner efficacement ses modèles. Elle a également soutenu qu’elle avait mis en place des mesures d’atténuation pour limiter, dans la mesure du possible, la présence de renseignements personnels dans ses ensembles de données d’entraînement et les résultats du modèle, et pour réduire au minimum les risques connexes pour la vie privée. En réponse à notre rapport préliminaire, OpenAI a également indiqué qu’elle cherche et développe continuellement des améliorations en matière de sécurité et qu’elle améliore de façon itérative les techniques et les processus pour l’entraînement des modèles d’IA. Cela comprend notamment des techniques contribuant à la protection de la vie privée qui réduisent le traitement des renseignements personnels en détectant et en filtrant les renseignements d’identification personnelle dans les ensembles de données d’entraînement. Ainsi, les modèles peuvent en apprendre sur le langage et s’améliorer sans apprendre des renseignements masqués (ces diverses mesures d’atténuation sont décrites plus loin dans les sections pertinentes du rapport). OpenAI a, par la même occasion, indiqué qu’il n’est pas possible ni souhaitable, de supprimer complètement les renseignements personnels du corpus d’entraînement, car les modèles doivent apprendre comment de tels renseignements s’intègrent à une phrase pour pouvoir répondre aux invites des utilisateurs.
- Nous ne sommes pas d’accord avec l’affirmation d’OpenAI selon laquelle sa collecte de renseignements personnels est simplement accessoire. Nous considérons plutôt qu’OpenAI recueille d’importantes quantités de renseignements personnels dans le but d’entraîner ses modèles d’IA. Nous constatons que cette position est conforme aux conclusions d’autres autorités de protection à travers le mondeNote de bas de page 62. Cela dit, nous reconnaissons qu’OpenAI ne cible pas exclusivement les renseignements personnels lorsqu’elle recueille des renseignements dans le but d’établir ses ensembles de données d’entraînement.
- Selon les éléments ci-dessus, nous concluons qu’OpenAI recueille, utilise et communique des renseignements personnels par l’intermédiaire de ChatGPT et en lien avec celui-ci.
Fins de la collecte, de l’utilisation et de la communication
- Pour chacune des catégories de renseignements ci-dessus, OpenAI a défini des fins précises pour leur collecte et leur traitement; ces fins sont énumérées dans le tableau ci-dessous. Toutefois, globalement, nous considérons que les fins de la collecte, l’utilisation et la communication de ces renseignements personnels par OpenAI sont le développement, la mise en œuvre, le perfectionnement continu et l’exploitation de ChatGPT (ci-après appelées « développement et déploiement »).
Catégorie de renseignements Principales fins de la collecte et du traitement (établies par OpenAI) Données sur les interactions des utilisateurs Fournir, administrer, maintenir ou analyser les services d’OpenAI
Améliorer le service d’OpenAI, mettre en place de nouveaux services et réaliser des recherches (à moins qu’un utilisateur n’ait retiré son consentement)Note de bas de page 63
Effectuer des transferts d’entreprise (c’est-à-dire que les données sur les interactions des utilisateurs peuvent être analysées pour montrer les tendances en matière de performance, d’utilité et d’utilisation des produits et services d’OpenAI en cas de transfert d’entreprise)Note de bas de page 64Renseignements provenant de sources Internet accessibles au public
Renseignements pour lesquels OpenAI a reçu l’autorisation d’un tiers
Conversations générées par les personnes chargées de l’entraînement de l’IAEntraîner les modèles d’IA, ce qui peut inclure la fourniture ou l’amélioration des produits et services d’OpenAI et l’élaboration de nouveaux programmes et services - Enfin, même si OpenAI utilise des renseignements personnels à des fins de recherche, elle n’a pas indiqué, et nous n’avons aucune preuve qui le suggère, que sa collecte de renseignements personnels à partir de sources Internet accessibles au public et d’ensembles de données sous licence est effectuée uniquement à des fins de rechercheNote de bas de page 65. Nous acceptons la position d’OpenAI selon laquelle le recours à l’exception relative au consentement en matière de recherche nécessite une évaluation au cas par cas du contexte particulier, de la nature du traitement et des conditions applicables prévues par la loi, et qu’elle pourrait, dans des circonstances appropriées, avoir recours à cette exception si ces conditions sont remplies.
Enjeu 1 : OpenAI a-t-elle recueilli, utilisé et communiqué les renseignements personnels à des fins acceptables?
- Comme nous l’expliquons ci-dessous, nous reconnaissons que les fins de développement et de déploiement par OpenAI de ChatGPT, telles qu’elles sont énumérées au paragraphe 55 ci-dessus, sont appropriéesNote de bas de page 66. Nous reconnaissons également que les pratiques d’OpenAI en ce qui concerne les renseignements personnels recueillis directement auprès des utilisateurs dans le cadre de leurs interactions avec ChatGPT sont nécessaires et proportionnelles. Cependant, nous estimons que la façon dont OpenAI a initialement recueilli les renseignements personnels à partir de sources Internet et auprès de tiers aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4, de même que l’ampleur et la nature des renseignements personnels recueillis et utilisés provenant de ces sources, étaient trop larges et donc inappropriées, ce qui contrevient aux Lois.
- La page Document d’orientation sur les pratiques inacceptables du traitement des données : Interprétation et application du paragraphe 5(3) du CPVP prévoit que, pour interpréter et appliquer le paragraphe 5(3) de la LPRPDE, le CPVP prend en compte certains facteurs établis par les tribunauxNote de bas de page 67, qui servent à aider à déterminer si une organisation recueille, utilise ou communique des renseignements personnels à des fins qu’une personne raisonnable estimerait acceptables dans les circonstances. Comme nous l’avons mentionné précédemment, ces facteurs doivent être appliqués en tenant compte du contexte, c’est-à-dire avec souplesse et variabilité en fonction des circonstancesNote de bas de page 68. En appliquant le paragraphe 5(3) de la LPRPDE, les tribunaux ont déterminé que le CPVP doit se livrer à une « pondération » du droit à la vie privée de la personne et des besoins commerciaux de l’organisme concernéNote de bas de page 69. Cette pondération doit se faire « du point de vue d’une personne raisonnableNote de bas de page 70 ». Un cas récent de jurisprudence a permis de réaffirmer que la LPRPDE n’exige pas une pondération des droits concurrentiels, mais plutôt entre le droit à la vie privée d’une personne et le besoin d’une organisation de recueillir des renseignements personnelsNote de bas de page 71.
- La PIPA de la Colombie-Britannique et la PIPA de l’Alberta prévoient qu’une organisation ne peut recueillir, utiliser ou communiquer des renseignements personnels qu’à des fins qu’une personne raisonnable estimerait acceptables dans les circonstancesNote de bas de page 72. Les ordonnances émises par le CIPVP de l’Alberta ont aussi permis de formuler plusieurs questions servant à déterminer si la collecte des renseignements personnels dans un cas donné a été effectuée à des fins raisonnables, entre autres s’il existe un enjeu légitime à résoudre au moyen de la collecte de renseignements personnelsNote de bas de page 73. Le CIPVP de la Colombie-Britannique considère des facteurs semblables à ceux pris en compte par le CIPVP de l’Alberta pour déterminer si les fins sont raisonnables dans les circonstancesNote de bas de page 74.
- Afin de déterminer si les fins pour lesquelles les renseignements personnels recueillis par la société sont sérieuses et légitimes au sens de l’article 4 de la LPRPSP du Québec, la CAI tient compte de la légalité des fins et de leur respect des principes de droit, de justice et d’équitéNote de bas de page 75. Plus précisément, l’article 4 de la LPRPSP du Québec exige qu’une entreprise qui recueille des renseignements personnels détermine les fins de la collecte avant que celle-ci soit effectuée. De plus, selon le critère de nécessité établi à l’article 5 de la LPRPSP du Québec, les fins justifiant la collecte doivent être légitimes, importantes et réelles, et l’atteinte à la vie privée qui en résulte doit être proportionnelle à l’importance de ces fins. Le fardeau d’établir le caractère sérieux et légitime des fins auxquelles les renseignements personnels sont recueillis et la nécessité de les recueillir incombe à l’entreprise qui recueille ces renseignements.
- Les principes de fins appropriées, de nécessité et de proportionnalité sont également traités et décrits dans les Principes pour des technologies de l’intelligence artificielle (IA) générative responsables, dignes de confiance et respectueuses de la vie privée (principes relatifs à l’IA générative), adoptés le 7 décembre 2023 par les autorités fédérales, provinciales et territoriales responsables de la protection de la vie privéeNote de bas de page 76.
- Dans les sections suivantes, nous évaluerons les fins auxquelles OpenAI développe et déploie ChatGPT, tout en tenant compte des divers facteurs et questions mentionnés ci-dessus.
Degré de sensibilité des renseignements personnels
- Comme il est décrit plus en détail aux paragraphes 133 et 296, compte tenu des mesures limitées de protection de la vie privée en place au moment du développement de ses modèles GPT-3.5 et GPT-4 (en particulier aux étapes de la collecte des données et du préentraînement), nous estimons que les ensembles de données d’entraînement d’OpenAI comportaient nécessairement des quantités importantes de renseignements personnels ayant divers degrés de sensibilité, tels que des renseignements médicaux, des opinions sur des sujets sensibles ou controversés, y compris sur d’autres personnes, et des renseignements relatifs aux enfants.
Besoin ou enjeu légitime
- OpenAI a déclaré que son intention, en développant et en déployant ChatGPT, est de « générer des retombées pour l’humanité, » par exemple d’aider les gens à accomplir leurs tâches quotidiennes et à mener des recherches scientifiques ou encore de stimuler leur créativité. Nous acceptons que cet objectif corresponde à un besoin ou à un enjeu légitime pour OpenAINote de bas de page 77.
- De façon générale, nous estimons que la mise en œuvre de technologies de l’IA générative – notamment de GML – sûres, dignes de confiance et respectueuses de la vie privée peut offrir de nombreuses applications bénéfiques, en particulier dans la société d’aujourd’hui. En effet, beaucoup de publications de recherche et de reportages dans les médias ont présenté les avantages concrets de l’IA générative. À titre d’exemple, l’Organisation de coopération et de développement économiques (OCDE) a mis en lumière des gains potentiels dans les domaines de la traduction et de l’interprétation, de la programmation et de la création de contenu et même des soins de santéNote de bas de page 78. Le New York Times a publié un article présentant 35 utilisations concrètes de l’IA par les gens ordinairesNote de bas de page 79, par exemple pour rédiger un discours, apprendre une langue ou créer des formules Excel. D’autres articles mettent l’accent sur les avantages de l’IA en entreprise (par exemple, la possibilité d’amélioration de l’efficacité et de la productivité, d’amélioration de l’expérience client ou d’optimisation des activités commercialesNote de bas de page 80) ou sur sa capacité à accélérer et à améliorer les recherches, laissant place à des idées novatrices qui repoussent les limites des possibilités actuellesNote de bas de page 81.
- Nous reconnaissons également qu’il existe des risques actuels et futurs associés à l’utilisation des GML qui sont lancés sans mesures de protection adéquates. Ces risques comprennent la possibilité que les modèles diffusent de fausses informations (en particulier lorsqu’ils sont utilisés pour prendre ou appuyer des décisions non automatisées au sujet d’une personne), portent atteinte à la vie privée et à la réputation de personnes (notamment les jeunes et d’autres groupes vulnérables) ou aident des auteurs malveillants à mener des cyberattaques.
- Comme il est décrit plus loin (voir les paragraphes 128, 294 et 378), OpenAI a expliqué aux Commissariats les mesures d’atténuation des risques qu’elle a prises à diverses étapes du développement et du déploiement de ses modèles d’IA, notamment pour prévenir l’utilisation inappropriée et non autorisée de ChatGPT, et pour atténuer les risques mentionnés dans le paragraphe ci-dessus.
- Bien que, comme il est expliqué au paragraphe 17, la portée de la présente enquête ne vise pas toutes les façons possibles pour les clients (par exemple, clients de l’API, développeurs de GPT, utilisateurs individuels) d’utiliser ChatGPT, nous encourageons vivement OpenAI à s’assurer que des mesures rigoureuses sont en place pour garantir que ChatGPT n’est pas utilisé de manière à contrevenir aux politiques d’utilisation de l’outil ou à d’autres fins inappropriées. En particulier, nous appelons OpenAI à s’assurer que ChatGPT n’est pas utilisé à des fins qui constituent des zones interdites selon ce qui est décrit sur la page Document d’orientation sur les pratiques inacceptables du traitement des données : Interprétation et application du paragraphe 5(3) du CPVPNote de bas de page 82.
Détermination de la nature légitime, réelle et importante des fins au titre de la LPRPSP du Québec
- Comme l’exige la LPRPSP du Québec, la CAI a examiné les fins précises établies par OpenAI (voir le paragraphe 55) afin de déterminer si elles sont légitimes, réelles et importantes.
Les fins auxquelles la société collecte des renseignements personnels à partir de sources accessibles sur Internet sont-elles légitimes, réelles et importantes?
- OpenAI a indiqué aux Commissariats qu’elle recueille des renseignements à partir de sources accessibles sur Internet, notamment des renseignements personnels, aux fins de l’entraînement de ses modèles d’IA, ce qui comprend la mise à l’essai de ses produits et services ainsi que l’élaboration de nouveaux programmes et services.
- À cet effet, la CAI considère que la collecte de renseignements personnels aux fins de l’entraînement du modèle d’IA de ChatGPT, qui va de pair avec le fait de rendre accessible au public un agent conversationnel, ainsi que le fait de tester ce modèle et d’en développer de nouveaux, sont des fins qui peuvent être considérées comme légitimes.
- Pour la question de savoir si les fins de la collecte d’OpenAI sont réelles et importantes, la CAI reconnaît que l’entraînement d’un modèle d’IA requiert un nombre important de données. La CAI reconnaît également que la collecte massive de données à partir de sources accessibles au public, en particulier au moyen de moissonnage du Web, peut entraîner une collecte de renseignements personnels, et ce, sans que ces derniers aient été spécifiquement visés par la collecte qui est effectuée.
- Toutefois, tel qu’il est expliqué ci-dessus, les Commissariats n’acceptent pas l’affirmation d’OpenAI selon laquelle la collecte de renseignements personnels qu’elle effectue est simplement accessoire à la collecte massive de données d’entraînement accessibles sur le Web et considèrent plutôt que cette collecte représente un volume important de renseignements personnels.
- Malgré cette considération, et sous réserve de la question de savoir si les mesures d’atténuation des risques d’atteinte à la vie privée prises par OpenAI sont suffisantes (pour réduire au minimum l’inclusion de renseignements personnels et, en particulier, de renseignements sensibles), dont il sera question plus loin dans le présent rapport, la CAI accepte néanmoins l’argument d’OpenAI à l’effet que la collecte est nécessaire pour que son modèle d’IA apprenne comment les renseignements personnels s’intègrent à une phrase et puisse ainsi répondre aux diverses invites des utilisateurs. La CAI accepte aussi que, pour y arriver, l’entraînement du modèle doive avoir été axé sur un nombre important de scénarios pertinents.
- De même, la CAI est au fait de l’importance que les modèles d’IA de ce type soient suffisamment testés avant d’être mis à la disposition du public et insiste sur le fait qu’il s’agit de quelque chose d’important. Bien entraîner, évaluer et mettre à l’essai les modèles est en effet essentiel pour garantir qu’ils sont suffisamment exacts, cohérents, justes et sécuritaires. Par exemple, OpenAI a indiqué que ses modèles doivent apprendre et comprendre comment différents types de renseignements personnels s’intègrent dans le langage afin de pouvoir répondre aux invites des utilisateurs d’une manière qui respecte les politiques d’OpenAI, notamment en rejetant les demandes visant les renseignements personnels ou sensibles d’individus. À cet effet, la CAI considère que l’entraînement du modèle de ChatGPT, le fait de le tester, ainsi que le fait de développer de nouveaux programmes et services liés à l’objectif global de mettre un robot conversationnel à la disposition du public revêtent un caractère réel et important.
- Enfin, considérant que l’objectif global d’OpenAI de développer et de déployer ChatGPT peut servir l’intérêt public, la CAI estime (toujours sous réserve de la question de l’atténuation des risques qui sera traitée ultérieurement) qu’il est utile et important que les modèles aient accès à de multiples exemples de textes pouvant contenir des renseignements personnels afin d’apprendre comment de tels renseignements s’intègrent dans la structure des phrases et aux fins de pouvoir répondre correctement et de manière efficiente aux questions des utilisateurs.
Les fins auxquelles la société collecte des renseignements personnels figurant dans les interactions des utilisateurs avec ChatGPT sont-elles légitimes, réelles et importantes?
- Lorsqu’il est question de la collecte des renseignements personnels tirés des interactions des utilisateurs, la CAI accepte qu’il soit légitime, réel et important pour OpenAI de vouloir fournir, administrer, maintenir, analyser et tester des services qui sont liés au fait de fournir un service d’agent conversationnel.
- De même, la CAI considère que les fins de recherche et développement alléguées par la société sont légitimes, réelles et importantes, pourvu que cette recherche et développement s’inscrit dans l’objectif général de rendre disponible au public un agent conversationnel.
Efficacité
- À la lumière de leurs essais et de leurs recherchesNote de bas de page 83 dans des sources ouvertes, les Commissariats acceptent que les GML comme ChatGPT soient généralement efficaces pour générer et simuler un langage naturel, et exécuter d’autres tâches de traitement du langage naturel, comme la synthèse du texte ou la traduction.
- Cependant, comme il est expliqué dans la section sur l’exactitude plus loin (enjeu 4), nous estimons qu’au moment de développer et de déployer GPT-3.5 et GPT-4, OpenAI ne respectait pas les exigences en matière d’exactitude prévues par les Lois.
Moyens portant moins atteinte à la vie privée et proportionnalité
- Comme il est expliqué ci-dessus, nous croyons que i) les fins générales auxquelles OpenAI collecte, utilise et communique des renseignements personnels – c’est-à-dire pour élaborer et déployer ses GML – correspondent à un besoin légitime; et ii) que ChatGPT est généralement efficace pour générer un langage naturel lors de conversations, sous réserve des inquiétudes quant à l’exactitude soulevées dans les paragraphes précédents. Cependant, nous devons également déterminer si OpenAI aurait pu développer et déployer ses modèles GPT-3.5 et GPT-4 par des moyens portant moins atteinte à la vie privée et si les préjudices à la vie privée découlant des pratiques d’OpenAI étaient proportionnels aux avantages potentiels de ces GML.
- À cette fin, nous examinons la collecte, l’utilisation et la communication de renseignements personnels d’OpenAI provenant i) de sites Web accessibles au public et d’ensembles de données sous licence; et ii) des interactions des utilisateurs avec ChatGPT.
Collecte, utilisation et communication des renseignements personnels provenant de sites Web accessibles au public et d’ensembles de données sous licence
- Comme nous l’expliquons ci-dessous, nous constatons que, lors du développement et du déploiement des modèles GPT-3.5 et GPT-4, OpenAI n’a pas atténué de façon adéquate les atteintes à la vie privée résultant de sa collecte, de son utilisation et de sa communication de renseignements personnels, comme l’exigent les Lois. Nous constatons également que les préjudices à la vie privée découlant de ce développement et de ce déploiement n’étaient pas proportionnels aux avantages potentiels de ChatGPT. Bien que nous reconnaissions qu’OpenAI ait pu être confrontée à des obstacles technologiques pour entraîner ses modèles GPT-3.5 et GPT-4 d’une manière portant moins atteinte à la vie privée, nous notons qu’en réponse à notre rapport préliminaire, OpenAI a indiqué avoir récemment mis en œuvre de nouvelles mesures d’atténuation qui réduisent considérablement les risques pour la vie privée associés au développement de modèles d’IA générative. Cela démontre qu’en faisant preuve d’innovation et de prévoyance, il aurait été possible d’entraîner GPT-3.5 et GPT-4 d’une manière portant moins atteinte à la vie privée, et ce, pour un coût et une efficacité comparables.
- Tel qu’il est mentionné plus loin au paragraphe 127 et dans les paragraphes suivants, bien qu’OpenAI n’ait pas rendu publique la taille exacte de ses ensembles de données d’entraînement, la société a indiqué qu’ils contiennent des milliards de mots. De plus, notre enquête a révélé que, bien qu’OpenAI ne cherche pas exclusivement à recueillir des renseignements personnels lors de la collecte en ligne de données accessibles au public, ces immenses ensembles de données comprennent des quantités importantes de renseignements personnels ayant divers degrés de sensibilité.
- OpenAI a affirmé que la nature de son traitement n’est pas intrusive étant donné que le traitement repose sur des ensembles de données non structurés qui ne sont pas indexés ou organisés par référence à un identifiant, utilise la segmentation en jetons (c’est-à-dire que le texte brut est transformé en représentations numériques et n’est donc pas utilisé dans son format original) et ne traite pas les renseignements personnels de manière ciblée (c’est-à-dire pour acquérir des connaissances précises sur des particuliers ou générer des profils). OpenAI a également mentionné que le traitement vise à utiliser les renseignements personnels pour apprendre aux modèles d’IA le concept et la signification des renseignements personnels de manière générale.
- Cela dit, OpenAI reconnaît aussi, et nous sommes d’accord, qu’il y a des risques associés à cette pratique, y compris en lien avec la protection de la vie privée. Dans cette optique, la compagnie a expliqué qu’elle a mis en œuvre des mesures pour réduire la présence de renseignements personnels dans les ensembles de données.
- En particulier, OpenAI a indiqué que, lors de la constitution de son corpus d’entraînement pour GPT-3Note de bas de page 84, elle a pris des mesures pour éviter qu’il ne contienne du contenu piraté et pour supprimer le contenu en double ou préjudiciable (par exemple, le matériel d’exploitation sexuelle d’enfants, les discours haineux, le contenu érotique, les pourriels). Pour l’entraînement de GPT-4 et des versions ultérieures, OpenAI a expliqué qu’elle a pris des mesures supplémentaires pour repérer et supprimer du corpus d’entraînement certains sites conçus pour indexer ou recueillir des renseignements personnelsNote de bas de page 85. Enfin, OpenAI a indiqué qu’elle ne contourne pas les processus liés aux verrous d’accès payant ou aux sites Web protégés par des comptes et n’obtient pas de renseignements provenant du Web clandestin.
- OpenAI a indiqué qu’elle ne supprime seulement qu’une petite partie des catégories de sites Web dans les données qu’elle inclut dans ses ensembles de données d’entraînement. Elle a également confirmé qu’elle n’excluait pas les sites Web de médias sociaux, les sites Web destinés aux enfants ou les sites Web susceptibles de contenir des renseignements sensibles concernant d’autres groupes vulnérables. De plus, étant donné qu’OpenAI ne supprime que certaines catégories limitées de sites Web dans les données d’entraînement, les renseignements des forums de discussion sont probablement inclus dans les ensembles de données.
- Les données provenant de sources telles que les médias sociaux et les forums de discussion contiennent de vastes quantités de renseignements personnels (y compris ceux d’enfants). Certains d’entre eux sont de nature délicate et une grande part d’entre eux reflètent les points de vue et opinions subjectifs et potentiellement inexacts des personnes qui publient ces renseignements.
- OpenAI a expliqué aux Commissariats que la collecte de données à partir de sites Web auxquels le public peut accéder sans avoir à ouvrir de session est nécessaire pour pouvoir enseigner le langage à ses modèles, et que présenter ce contenu aux modèles vise à leur montrer comment ce contenu est formulé, et non à en valider la véracité. Plus précisément, OpenAI a déclaré que, pour développer des modèles d’IA polyvalents hautement performants (les modèles d’IA polyvalents), les modèles doivent être entraînés à partir de vastes ensembles de données diversifiées, qui comprennent forcément de vrais échanges informels. Ceux-ci permettent aux modèles d’apprendre comment le langage est utilisé naturellement dans les interactions entre les individus, en particulier dans des contextes informels et spontanés, qui ne sont pas des textes structurés ou révisés, comme les conversations non officielles et les échanges de tous les jours.
- De plus, OpenAI a soutenu que l’anonymisation complète des données d’entraînement pour le développement des modèles d’IA polyvalents demeure techniquement impossible, car elle compromettrait l’efficacité des modèles et leur capacité à servir des fins socialement bénéfiques de façon générale. OpenAI a également indiqué que, malgré les efforts visant à employer et à élargir l’utilisation de mesures novatrices en matière de protection de la vie privée (comme les données synthétiques), la technologie de pointe actuelle n’offre pas de moyens portant moins atteinte à la vie privée pour développer des modèles d’IA hautement performantsNote de bas de page 86.
- En réponse à ces observations, les Commissariats reconnaissent qu’il peut y avoir des avantages à recueillir des renseignements personnels dans un tel contexte et qu’un vaste corpus d’entraînement varié peut aider ChatGPT à bien comprendre les demandes des utilisateurs et à fournir des réponses adéquates.
- Cependant, nous n’acceptons pas l’affirmation d’OpenAI selon laquelle il n’y avait pas de moyens portant moins atteinte à la vie privée pour développer GPT-3.5 et GPT-4 au même coût (ou à un coût semblable) et avec une efficacité comparable. En effet, comme il est expliqué plus loin, OpenAI a indiqué en réponse à notre rapport préliminaire qu’elle a récemment mis en œuvre de nouvelles mesures d’atténuation qui réduisent considérablement les risques pour la vie privée associés au développement des modèles d’IA générative. Selon nous, cela démontre qu’en faisant preuve d’innovation, il aurait été possible d’entraîner GPT-3.5 et GPT-4 d’une manière portant moins atteinte à la vie privée.
- Nous estimons qu’en l’absence de ces mesures d’atténuation, le développement et le déploiement par OpenAI de GPT-3.5 et GPT-4 ont entraîné une collecte portant atteinte à la vie privée de quantités importantes de renseignements personnels, ce qui a forcément augmenté le risque de préjudices pour la vie privée, notamment ceux résultant de la communication involontaire de renseignements personnels dans les résultats des modèles, d’atteinte à la sécurité des données d’entraînement et, plus généralement, de la perte de contrôle des individus sur leurs renseignements personnels. De plus, le fait de savoir que de tels risques pour vie privée existent ou que de tels incidents peuvent avoir lieu pourrait avoir eu une incidence négative sur le fait que ces individus veuillent avoir des discussions ouvertes dans la société numérique.
- Enfin, le fait que les ensembles de données d’entraînement d’OpenAI contenaient des renseignements personnels provenant de sources telles que les médias sociaux et les forums de discussion – qui peuvent souvent être inexactes, par exemple lorsqu’on y trouve des opinions qui ne sont pas ancrées dans les faits ou qui sont biaisées – aurait également amplifié le risque que des renseignements personnels inexacts apparaissent dans les résultats des modèles.
- OpenAI a fait valoir qu’il n’existe aucune preuve concrète d’un problème systémique de présence de renseignements personnels inexacts dans les résultats de ChatGPT. La société a également indiqué qu’elle prend des mesures concrètes pour améliorer l’exactitude des résultats des modèles et atténuer les risques pour la vie privée, par exemple, en entraînant ses modèles à refuser de fournir des renseignements personnels ou sensibles, même si ces renseignements sont accessibles au public (pour en savoir plus, voir l’enjeu 4 sur l’exactitude).
- En ce qui concerne les préjudices qui pourraient découler de la communication de renseignements personnels par l’intermédiaire des réponses de ChatGPT, OpenAI a indiqué que les renseignements personnels apparaissant dans les résultats produits par son modèle seraient probablement inclus parce qu’ils sont largement accessibles sur Internet (par opposition, par exemple, au fait qu’ils se trouvent dans une seule source).
- Bien que nous acceptions que cela puisse atténuer dans une certaine mesure le risque que des renseignements personnels qui sont parfois publiés sur Internet soient communiqués par ChatGPT, le fait que les renseignements personnels soient largement accessibles sur Internet ne signifie pas nécessairement qu’ils sont exacts et exempts de parti pris. C’est particulièrement vrai à une époque où la mésinformation et la désinformation peuvent se propager sur Internet à une vitesse sans précédent. Surtout, comme nous l’expliquons plus en détail à l’enjeu 2, le fait que les renseignements personnels soient accessibles ne donne pas carte blanche pour les recueillir et les utiliser sans restriction.
- Par conséquent, nous jugeons que les mesures d’atténuation qu’OpenAI avait en place au moment de l’entraînement des modèles GPT-3.5 et GPT-4 n’étaient pas suffisantes pour limiter la portée de la collecte, de l’utilisation et de la communication des renseignements personnels à ce qui était nécessaire et proportionnel pour entraîner efficacement ses modèlesNote de bas de page 87. Pour ces raisons, nous estimons qu’à l’époque de cet entraînement, les avantages de cette pratique ne l’emportaient pas sur les risques de préjudices pour la vie privéeNote de bas de page 88,Note de bas de page 89.
Collecte, utilisation et communication des renseignements personnels figurant dans les interactions des utilisateurs avec ChatGPT
- À titre préliminaire, les Commissariats reconnaissent que la collecte de renseignements tirés des interactions des utilisateurs effectuée par OpenAI est nécessaire pour répondre efficacement aux requêtes des utilisateurs. Par conséquent, la présente section porte sur l’utilisation et la communication éventuelles des renseignements personnels compris dans les interactions des utilisateurs dans le but de développer et de déployer les modèles d’IA d’OpenAI.
- Nous reconnaissons que l’utilisation d’une certaine quantité de données tirées des interactions des utilisateurs peut être bénéfique et nécessaire pour bien entraîner les modèles, surtout pendant la phase d’affinage. Comme il est mentionné au paragraphe 48, OpenAI a expliqué que l’affinage comprend (entre autres) l’utilisation d’un sous-ensemble d’interactions des utilisateurs pour améliorer la capacité du modèle à répondre aux requêtes des utilisateurs d’une manière que les gens trouvent utile, c’est-à-dire d’une manière plus pertinente, sécuritaire, précise et exempte de préjugés.
- OpenAI a aussi indiqué que, lors de l’entraînement de ses modèles GPT-3.5 et GPT-4, elle a mis en place certaines mesures pour atténuer les risques associés à l’utilisation des interactions des utilisateurs à des fins d’entraînement. Comme nous l’expliquons plus en détail au paragraphe 294, ces mesures comprenaient la suppression du lien qui existe entre les interactions et les comptes des utilisateurs, l’utilisation de l’outil de filtrage d’un tiers pour supprimer les renseignements d’identification personnelle, la possibilité pour les utilisateurs qui ont un compte de choisir si leurs interactions avec ChatGPT seraient utilisées pour l’entraînement des modèles et le fait d’informer les utilisateurs (bien que ce ne soit pas fait de façon adéquate, comme il est mentionné au paragraphe 293) de ne pas inclure des renseignements de nature sensible dans leurs interactions avec l’outil. La société a également demandé aux personnes chargées de l’entraînement des modèles d’exclure des ensembles de données utilisés pour l’affinage, les renseignements qui pourraient représenter des renseignements personnels. Enfin, OpenAI a expliqué que, pour entraîner ses modèles, elle n’a utilisé qu’un petit sous-ensemble des renseignements tirés des interactions des utilisateurs qu’elle a recueilli.
- Comme nous l’indiquons au paragraphe 296 du présent rapport, l’outil de filtrage d’un tiers qu’OpenAI a utilisé lorsqu’elle a entraîné GPT-3.5 et GPT-4 n’a supprimé qu’un sous-ensemble de renseignements qui constitueraient, selon ce qui est défini dans les Lois, des renseignements personnels, de sorte que des renseignements sensibles, comme des opinions, pouvaient encore se trouver dans les données tirées des interactions des utilisateurs qui ont été utilisées pour l’entraînement (et ces renseignements pouvaient être communiqués dans les résultats des modèles). Cependant, nous acceptons que la combinaison des diverses mesures décrites ci-dessus a atténué considérablement le risque de préjudices pour la vie privée lié à l’entraînement du modèle au moyen de renseignements personnels contenus dans les interactions des utilisateurs.
- Compte tenu de la nécessité d’entraîner le modèle au moyen des interactions des utilisateurs, et au vu des avantages connexes soulignés ci-dessus (c’est‑à‑dire fournir des réponses plus utiles de manière plus efficace), nous acceptons – en tenant compte des mesures d’atténuation mises en œuvre par OpenAI – que les avantages de cette pratique aient été proportionnels au risque résiduel de préjudices pour la vie privée.
Constatations liées aux modèles GPT-3.5 et GPT-4
- Comme il a été mentionné précédemment, nous estimons que la collecte et l’utilisation des renseignements personnels provenant de sites Web accessibles au public et d’ensembles de données sous licence par OpenAI au moment de l’entraînement de ses modèles GPT-3.5 et GPT-4 étaient d’une d’une portée trop large, et qu’elles n’étaient donc pas nécessaires et proportionnelles. Par conséquent, nous jugeonsNote de bas de page 90 qu’OpenAI a contrevenu au paragraphe 5(3) de la LPRPDE, aux articles 2, 11, 14 et 17 de la PIPA de la Colombie-Britannique, aux articles 11, 16 et 19 de la PIPA de l’Alberta et à l’article 5 de la LPRPSP du Québec.
- De plus, nous reconnaissons que la collecte, l’utilisation et la communication des renseignements personnels tirés des interactions des utilisateurs avec ChatGPT ont été utiles pour contribuer au besoin légitime d’OpenAI de développer et de déployer ChatGPT – en particulier, pour améliorer les résultats produits par les modèles en réponse aux invites des utilisateurs – et que les avantages de cette pratique étaient proportionnels au risque résiduel de préjudices pour la vie privée, en tenant compte des mesures d’atténuation mises en œuvre par OpenAI. Par conséquent, nous estimons que cet élément de la plainte est non fondé.
Développements récents et conclusions au titre de la LPRPDE
- Dans sa réponse au rapport préliminaire des Commissariats, OpenAI a fait valoir qu’elle n’avait pas connaissance d’un cas où des commissaires à la protection de la vie privée canadiens auraient pris une décision défavorable à l’égard d’une organisation concernant le traitement de renseignements accessibles au public, sans que les fins de la collecte de ces renseignements aient également été considérées comme inappropriées. Nous aimerions mentionner le cas de RateMDs, où le CPVP a conclu que certaines pratiques en matière de données peuvent être inappropriées au sens du paragraphe 5(3) de la LPRPDE, même si les fins générales de celles-ci sont ne sont pas en elles-mêmes inappropriéesNote de bas de page 91. De plus, la jurisprudence relative au paragraphe 5(3) de la LPRPDE souligne l’importance d’un examen contextuel, au cas par cas, plutôt que d’un examen axé exclusivement sur les fins générales liées aux renseignementsNote de bas de page 92.
- En réponse à notre rapport préliminaire, OpenAI a également informé les Commissariats qu’elle avait récemment développé un outil capable de détecter et de masquer les renseignements permettant d’identifier des particuliers dans les données Internet accessibles au public et dans des ensembles de données sous licence utilisés pour préentraîner ses modèles. OpenAI a aussi expliqué qu’elle utilise maintenant également cet outil (au lieu de l’outil de filtrage d’un tiers qu’elle utilisait auparavant) pour caviarder les renseignements d’identification personnelle dans les interactions des utilisateurs qui sont utilisées pour affiner les modèles.
- Selon OpenAI, ce nouvel outil peut détecter un large éventail de renseignements personnels de particuliers dans les ensembles de données d’entraînement (par exemple, des noms, des numéros de téléphone) et les masquer avant que ces données ne soient utilisées aux fins d’entraînement, afin que l’apprentissage des modèles ne se fasse pas à partir de ces données. OpenAI a indiqué que l’outil peut également détecter d’autres catégories de renseignements présentant un caractère tout aussi privé ou personnel, et ce, même s’il n’a jamais été entraîné à les reconnaître. Par conséquent, dans la mesure où un plus grand éventail de renseignements personnels, comme les opinions ou les caractéristiques d’un individu, sont inclus dans les ensembles de données, l’outil peut détecter et caviarder les identifiants qui permettraient d’associer ces renseignements à un individu donné.
- OpenAI a également indiqué que l’outil utilise le contexte pour détecter si les renseignements sont de nature privée ou personnelle et déterminer si ceux-ci doivent être masqués. Plus précisément, la société a mentionné que l’outil peut faire la distinction entre les renseignements personnels de particuliers, les renseignements personnels de personnalités publiques et les renseignements de personnages fictifs. Par conséquent, OpenAI a précisé qu’elle était en mesure de masquer les renseignements personnels de particuliers, et de déterminer quand masquer les renseignements personnels de personnalités publiques (par exemple, leur adresse ou leur numéro de téléphone personnel) et quand conserver leurs renseignements qui pourraient représenter un intérêt pour le public (par exemple, leur adresse ou leur numéro de téléphone professionnel). Enfin, OpenAI a fourni aux Commissariats les résultats de récentes évaluations internes démontrant l’efficacité de l’outil pour détecter différents types de renseignements personnels.
- Plus précisément, OpenAI a indiqué qu’elle a mené des évaluations en comparaison avec d’autres outils de filtrage, en utilisant la référence à source ouverte « PII Masking 300k »Note de bas de page 93. OpenAI a expliqué qu’une fois affiné à l’aide d’un petit sous-ensemble de la référence, son nouvel outil de filtrage a atteint un taux de rappel de 98 à 99 % (c’est-à-dire la proportion de cas réels de renseignements personnels que le système identifie correctement); le taux de faux positifs étant de 3 à 6 % (c’est-à-dire la proportion de cas où un texte est incorrectement signalé comme étant un renseignement personnel par le système). De plus, OpenAI a indiqué avoir mené des évaluations supplémentaires à partir de 80 000 extraits de discussions générées artificiellement et marqués par des annotateurs de données professionnels. Après avoir comparé les prédictions de l’outil avec les éléments marqués par des humains, OpenAI a indiqué avoir constaté une grande concordance avec le jugement humain, dépassant de loin les résultats obtenus avec l’outil de filtrage tiers utilisé auparavantNote de bas de page 94.
- Le CPVP reconnaît que ce nouvel outil – combiné aux autres mesures d’atténuation mises en place par OpenAI aux différents stades du développement et du déploiement de ChatGPTNote de bas de page 95 – peut réduire considérablement le risque que les renseignements personnels de particuliers, et les renseignements sensibles plus particulièrement, soient inclus dans les ensembles de données utilisés pour entraîner les futurs modèles d’OpenAI. De même, le CPVP reconnaît que cela réduira également le risque que de tels renseignements soient communiqués dans les résultats du modèle.
- Pour en arriver à cette constatation, le CPVP a aussi pris en compte les mesures de transparence supplémentaires qu’OpenAI s’est engagée à mettre en œuvre. Plus particulièrement, comme il est mentionné dans d’autres sections du présent rapportNote de bas de page 96, OpenAI a accepté de publier sur son site Web un billet de blogue canadien expliquant ses pratiques en matière de protection de la vie privée et de faire la promotion du blogue et de son contenu dans les médias canadiens. Le billet de blogue informera les individus que les interactions des utilisateurs peuvent être examinées et utilisées pour entraîner les modèles, conseillera aux utilisateurs de ne pas fournir de renseignements sensibles dans leurs interactions avec ChatGPT et fournira de l’information sur les catégories de contenu utilisées pour entraîner ses modèles. Nous sommes d’avis que, grâce à ces mesures de transparence, le public sera mieux informé des pratiques d’OpenAI en matière de protection de la vie privée, ce qui permettra de limiter la communication par les individus et la collecte par OpenAI de renseignements sensibles.
- Enfin, OpenAI a informé les Commissariats qu’elle a abandonné (c’est-à-dire retiré) les modèles GPT-3.5 et GPT-4 et elle a confirmé que les nouvelles mesures d’atténuation, y compris l’outil de filtrage mentionné ci-dessus, ont été appliquées tout au long de l’entraînement des modèles actuels qui alimentent ChatGPTNote de bas de page 97.
- Par conséquent, afin de refléter une pondération adéquate de la liberté d’expression et de la protection de la vie privée, le CPVP conclut que l’élément de la plainte lié à la collecte, à l’utilisation et à la communication des renseignements personnels provenant de sites Web accessibles au public et d’ensembles de données sous licence est fondé et conditionnellement résolu au titre de la LPRPDENote de bas de page 98.
- Cette conclusion est fondée sur les observations d’OpenAI ainsi que sur notre compréhension et notre attente qu’OpenAI continuera à réellement mettre en œuvre et à améliorer ces mesures d’atténuation, ainsi qu’à développer d’autres techniques novatrices de protection de la vie privée à l’avenir.
Enjeu 2 : OpenAI a-t-elle obtenu un consentement valide et a-t-elle respecté son obligation d’informer les individus quant à la collecte, à l’utilisation et à la communication de leurs renseignements personnels?
- Pour les raisons décrites plus loin, nous constatons qu’OpenAI n’a pas obtenu un consentement valide pour la collecte, l’utilisation et la communication des renseignements personnels aux fins de développement et de déploiement de ses modèles GPT-3.5 et GPT-4.
- Dans la section suivante (enjeu 2A), nous évaluerons si la collecte et l’utilisation par OpenAI des renseignements personnels provenant de sites Web accessibles au public ou de sources tierces autorisées étaient conformes aux dispositions de consentement figurant dans les Lois. Nous examinerons ensuite la collecte et l’utilisation par la partie intimée des renseignements personnels des utilisateurs tirés de leurs interactions avec ChatGPT (enjeu 2B)Note de bas de page 99. Enfin, nous examinerons la communication par OpenAI des renseignements personnels qui proviennent de ces diverses sources (enjeu 2C).
Enjeu 2A : OpenAI a-t-elle obtenu un consentement valide à la collecte, à l’utilisation et à la communication des renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées?
Analyse au titre de la LPRPDE, de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Nous constatons qu’OpenAI n’a pas obtenu un consentement impliciteNote de bas de page 100 pour la collecte et l’utilisation des renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4Note de bas de page 101.
- Selon le paragraphe 5(1), les articles 6.1 et 7, et l’article 4.3 du troisième principe figurant à l’annexe 1 de la LPRPDE, les articles 6 à 8 de la PIPA de la Colombie-Britannique et les articles 7 et 8 de la PIPA de l’Alberta, le consentement des individus est requis pour la collecte, l’utilisation ou la communication de leurs renseignements personnels, à moins qu’une exception ne s’applique. Le type de consentement nécessaire variera selon les circonstances et le type de renseignements dont il est question.
- Les Lignes directrices pour l’obtention d’un consentement valable (les lignes directrices sur le consentement) publiées conjointement par le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique disposent qu’« en règle générale, les organisations doivent obtenir un consentement exprès » dans les cas suivants : i) les renseignements recueillis, utilisés ou communiqués sont sensibles; ii) la collecte, l’utilisation ou la communication de l’information ne répond pas aux attentes raisonnables de l’intéressé; iii) la collecte, l’utilisation ou la communication de l’information crée un risque résiduel important de préjudice graveNote de bas de page 102.
- OpenAI a indiqué qu’elle se fie au consentement implicite des individus pour recueillir et traiter les renseignements personnels qui se trouvent sur les sites Web accessibles au public et dans les ensembles de données sous licence qu’elle utilise pour entraîner ses modèles. OpenAI a fait valoir qu’il est possible que les Lois ne soient pas conçues pour tenir compte des défis complexes et des nuances associés aux technologies novatrices et aux modèles d’affaires dans lesquels il n’y a pas de relation directe entre les parties concernées. OpenAI a suggéré que les Commissariats devraient appliquer une approche contextuelle et équilibrée fondée sur « la souplesse, le bon sens et le pragmatisme », et elle justifie son recours au consentement implicite en se basant sur les facteurs suivants :
- les retombées immédiates et considérables de l’entraînement des modèles d’IA, un entraînement qui, selon OpenAI, a déjà permis de générer des « retombées spectaculaires pour l’humanité »;
- la nécessité de ces renseignements aux fins de traitement de l’information, étant donné que les modèles doivent être entraînés sur un vaste corpus pour développer une compréhension du fonctionnement du langage;
- l’impossibilité d’envoyer directement une notification aux personnes, étant donné l’impossibilité de les identifier et de les localiser en fonction des renseignements contenus dans les ensembles de données brutes non structurés;
- les efforts raisonnables qu’OpenAI a déployés pour faire preuve de transparence quant à ses pratiques de traitement de l’information liées au développement et à l’entraînement de ses modèles, et l’avis public qu’elle transmet par des moyens facilement accessibles, tels que sa politique de confidentialité ou ses conditions d’utilisation;
- l’utilisation par OpenAI de mesures de dépersonnalisation et d’autres mesures d’atténuation des risques, telles que la nature non structurée des ensembles de données d’entraînement, l’utilisation de filtres pour exclure certains sites et contenus des données d’entraînement, ou le fait que les renseignements personnels ne sont pas traités de manière ciblée pour établir des profils d’individus en particulier ou acquérir des connaissances à leur sujet (les mesures d’atténuation dont il est question dans le présent rapport);
- la vision d’OpenAI selon laquelle la pondération des intérêts favorise une forme de retrait du consentement. OpenAI mentionne aussi qu’elle analyse continuellement les risques et les avantages liés à l’entraînement des modèles et au fait de les offrir au public, et cherche à optimiser l’équilibre entre ceux-ci, en tenant compte des différentes mesures qu’elle a mises en œuvre pour réduire le traitement des renseignements personnels et atténuer les risques potentiels.
- Le consentement est une exigence fondamentale de la LPRPDE, de la PIPA de l’Alberta et de la PIPA de la Colombie-Britannique, limitée uniquement par des exceptions législatives soigneusement définies expressément dans les lois respectives. Cette exigence a été confirmée dans la jurisprudence de la Cour suprême du CanadaNote de bas de page 103 ainsi que dans la jurisprudence fédéraleNote de bas de page 104 et provincialeNote de bas de page 105.
- Nous reconnaissons que le développement de nouvelles technologies, comme l’IA, peut représenter de nouveaux défis pour les organisations en ce qui a trait à la conformité aux lois en vigueur sur la protection des renseignements personnels, en particulier en ce qui concerne le consentement. Cependant, nous constatons que les Lois sont neutres sur le plan technologique et, par conséquent, nous sommes dans l’obligation d’évaluer les pratiques d’OpenAI par rapport aux cadres juridiques existants qui s’appliquent. Le pouvoir d’édicter de nouvelles lois ou de modifier les lois actuelles, que leur portée soit générale ou qu’elle vise en particulier l’IA générative et d’autres technologies émergentes, reste du ressort du Parlement et des législatures.
- Conformément à l’approche moderne de l’interprétation législative, les Commissariats ont interprété les Lois en suivant les critères « de la souplesse, du sens commun et du pragmatisme ». Comme il est indiqué ci-dessus, nous nous sommes appuyés sur cette approche pour évaluer les pratiques d’OpenAI par rapport aux Lois, en tenant compte des divers facteurs énumérés précédemment au paragraphe 122.
Nature sensible
- Certaines catégories de renseignements personnels seront généralement considérées comme sensibles et doivent donc faire l’objet d’une meilleure protection – notamment les renseignements sur la santé, les finances, les origines ethniques et raciales, les opinions politiques, les données génétiques et biométriques, la vie sexuelle ou l’orientation sexuelle et les croyances religieuses ou philosophiques, ainsi que les renseignements personnels des jeunesNote de bas de page 106.
- Bien que la taille exacte des ensembles de données dans lesquels figurent des données qu’OpenAI recueille directement auprès de sources accessibles au public et indirectement auprès de sources tierces autorisées n’ait pas été communiquée publiquement ni confirmée aux Commissariats au cours de l’enquête, OpenAI a déclaré que ces ensembles comprenaient des milliards de mots. En effet, la base de données de Common Crawl à elle seule, une des sources sur lesquelles OpenAI se fie pour établir ses ensembles de données, contient des pétaoctets (c’est-à-dire des millions de gigaoctets) de données recueillies régulièrement depuis 2008 (c’est-à-dire recueillies à partir de plus de 250 milliards de pages sur 17 ans; entre 3 et 5 milliards de nouvelles pages sont ajoutées chaque mois)Note de bas de page 107.
- OpenAI a maintenu que, dans le cadre de ses mesures d’atténuation visant à réduire la présence de renseignements personnels dans les ensembles de données finaux de préentraînement utilisés pour entraîner GPT-3.5 et GPT-4, elle a supprimé certaines catégories de sites Web des données brutes qu’elle a recueillies à partir de sites Web accessibles au public (c’est-à-dire des sites Web où il faut ouvrir une session, des sites Web où il y a du contenu piraté ou nuisible, des sites Web destinés aux adultes, et, dans le cas de GPT-4 plus précisément, des sites qui regroupent les renseignements personnels d’individusNote de bas de page 108) et le contenu « en double » (c’est-à-dire qu’elle élimine les redondances).
- En ce qui concerne les données ayant fait l’objet d’une autorisation accordée par un tiers, OpenAI a soutenu qu’elle a sélectionné des ensembles de données qui ne contiennent pas de renseignements personnels complets, tout en reconnaissant qu’ils peuvent par accident contenir des renseignements personnels (par exemple, une encyclopédie sous licence pourrait contenir une entrée concernant une figure publique encore vivante).
- Quoi qu’il en soit, OpenAI a indiqué que la quantité de données à elle seule n’est pas déterminante du degré de sensibilité des renseignements, en particulier en raison des données auxquelles le public peut accéder sans avoir à ouvrir de session, et de la nature et des fins intrinsèquement non intrusives du traitement. OpenAI a également indiqué que les risques potentiels pour la vie privée sont atténués davantage par la nature non structurée des ensembles de données de préentraînement, qui ne sont pas indexés ou organisés en fonction des individus, et par le fait que les renseignements sont segmentés en unités (voir le paragraphe 85).
- OpenAI a refusé notre demande d’accès à ses systèmes et d’examen de ceux-ci et, par conséquent, nous n’avons pas été en mesure d’évaluer directement l’efficacité des mesures d’atténuation. Comme il a été mentionné précédemment, les catégories de sites Web qu’OpenAI a retirées des ensembles de données utilisés pour le préentraînement de GPT-3.5 et GPT-4 étaient très limitées. Plus particulièrement, OpenAI a confirmé qu’elle n’a pas exclu les sites Web de médias sociaux, les sites Web destinés aux enfants ou les sites Web pouvant contenir des renseignements sur d’autres groupes vulnérables dont les renseignements sont les plus susceptibles d’être considérés comme étant sensibles.
- Les ensembles de données de préentraînement d’OpenAI comprenaient principalement des données qui étaient accessibles publiquement sur Internet, comme des publications sur des forums, des évaluations de produits, des commentaires d’utilisateurs, du contenu sur les médias sociaux, des essais, des articles ou des livres. Selon un article du New York Times, OpenAI et d’autres sociétés du domaine de l’IA ont aussi transcrit un million d’heures de vidéos YouTube pour recueillir du texte pour leurs modèles d’IANote de bas de page 109.
- Dans ce contexte, et compte tenu de l’absence de mesures d’atténuation visant à détecter et à masquer les renseignements permettant d’identifier des particuliers dans les ensembles de données de préentraînement de GPT-3.5 et GPT-4, nous estimons que ces ensembles de données comprenaient forcément des renseignements sensibles, comme des renseignements financiers ou médicaux, des renseignements sur les croyances religieuses ou politiques, des opinions sur des sujets sensibles ou controversés et des renseignements relatifs aux enfants. Il est à noter que certains de ces renseignements ont été publiés par des tiers (c’est-à-dire pas par l’individu lui-même).
- Bien que les ensembles de données sous licence représentent un sous-ensemble beaucoup plus petit des données de préentraînement d’OpenAI, nous jugeons qu’ils pourraient également avoir contenu des renseignements personnels sensibles. Par exemple, les articles de presse sur les infractions criminelles qu’un individu a commises par le passé, notamment les infractions simplement présumées, peuvent révéler des renseignements sensibles, comme son origine ethnique ou des renseignements sur sa santéNote de bas de page 110.
- Nous estimons qu’OpenAI ne pouvait pas compter sur un consentement implicite pour la collecte de renseignements aussi sensibles aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4.
Attentes raisonnables
- De plus, nous jugeons qu’au moment où OpenAI a entraîné ses modèles GPT-3.5 et GPT-4, les individus ne pouvaient pas s’attendre raisonnablement à ce que leurs renseignements personnels – même ceux qui étaient accessibles sur Internet parce qu’ils les avaient publiés eux-mêmes – soient utilisés pour entraîner les modèles d’OpenAI.
- OpenAI a déclaré que l’évaluation des attentes raisonnables doit être contextuelle et refléter les réalités de l’activité en ligne, notamment la pratique de longue date d’exploration du Web à diverses fins (par exemple, celle effectuée par les moteurs de recherche ou les chercheurs universitaires, ou dans le cadre d’archives) et le principe bien établi que les renseignements publiés sur l’Internet ouvert sans restriction d’accès entraînent des attentes réduites en matière de protection de la vie privée.
- À l’appui de cet argument, OpenAI a cité (entre autres cas) la décision récente de la Cour du Banc Roi de l’Alberta dans Clearview AI Inc v. Alberta (Information and Privacy Commissioner), dans laquelle la Cour a statué que, dans le contexte des moteurs de recherche Internet, les renseignements publiés sur l’Internet ouvert sans restriction d’accès entraînent des attentes réduites en matière de protection de la vie privée. La Cour a conclu ce qui suit : « [traduction] Une personne raisonnable qui publie des images et des renseignements sur un site Web ou une plateforme de médias sociaux visée par des conditions d’utilisation, mais sans utiliser de paramètres de confidentialité, s’attend à ce que ces images et renseignements soient indexés et récupérés par des moteurs de recherche Internet; en effet, c’est parfois le but de publier des images et des renseignements sur Internet sans utiliser de paramètres de confidentialitéNote de bas de page 111. »
- Bien que, dans le cas d’individus adultes qui ont choisi de rendre leurs renseignements personnels accessibles au public en ligne, les attentes raisonnables en matière de protection de la vie privée puissent être réduites pour ces renseignements, nous ne trouvons pas que la situation fait en sorte qu’il cesse complètement d’y en avoir. Cela est particulièrement vrai lorsque des renseignements ont été publiés par un tiers à l’insu de l’individu concerné et sans son consentement. De plus, comme il est expliqué plus en détail plus loin, les Lois définissent soigneusement ce qui constitue des « renseignements auxquels le public a accès » et, conformément à elles, des mesures de protection de la vie privée continuent d’être appliquées aux renseignements personnels qui ne sont pas visés par cette exemption.
- Bien qu’OpenAI ait reconnu que les moteurs de recherche ne soient pas visés par la présente enquête, elle a déclaré que le raisonnement de la Cour de l’Alberta est directement pertinent et instructif, puisque les moteurs de recherche et les modèles d’IA se fient à des données Internet accessibles au public pour offrir des fonctionnalités socialement bénéfiques.
- Même si nous sommes d’accord pour dire que les moteurs de recherche et les technologies d’IA générative sont de plus en plus intégrés, ce n’était pas le cas lorsque ChatGPT a été lancé en novembre 2022. À ce moment-là, ce service était nouveau et peu connu du public. Il se distinguait aussi fondamentalement des moteurs de recherche traditionnels, qui permettent simplement aux utilisateurs de naviguer et de trouver des renseignements sur Internet. Contrairement à ceux-ci, ChatGPT offrait un service novateur qui visait à créer du nouveau contenu en réponse aux invites des utilisateurs, et dans ce contenu, il pourrait y avoir des renseignements plausibles, mais inexacts ou fabriquésNote de bas de page 112 (notamment des renseignements personnels).
- Nous sommes d’avis que, dans ces circonstances, les attentes raisonnables des individus à l’égard de ces deux technologies – une technologie novatrice et essentielle par opposition à une technologie bien établie et de longue date – ne peuvent pas être les mêmes. Nous reconnaissons que les attentes raisonnables des individus en matière d’exploration du Web aux fins d’indexation des sites Web sur les moteurs de recherche peuvent avoir évolué au fil du temps, à mesure que les gens se sont familiarisés avec ces outils et qu’ils en ont appris davantage sur ces derniers. Toutefois, nous croyons qu’au moment où GPT-3.5 et GPT-4 ont été entraînés, les individus ne pouvaient raisonnablement pas s’attendre à ce qu’une telle exploration (et moissonnage) soit effectuée dans le but de développer une technologie dont elles n’étaient pas au courant ou qu’elles ne connaissaient pas.
- Certains des renseignements recueillis et utilisés pour entraîner les modèles d’OpenAI ont été publiés il y a plusieurs années, voire il y a des décennies. À l’époque, les individus ne pouvaient raisonnablement pas s’attendre à ce que ces renseignements soient utilisés pour l’entraînement d’une technologie qui n’avait pas encore été lancée.
- De façon semblable, lors de l’entraînement des modèles GPT-3.5 et GPT-4, l’IA générative n’avait pas encore une grande popularité. Bien que la technologie sous-jacente ait été en développement pendant des années, elle n’était pas encore populaire auprès de la population en général. Par conséquent, sans tenir compte du fait que l’option de retirer son consentement pour ce traitement était déjà offerte ou non, les individus n’auraient pas eu de raison de retirer leur consentement, car ils n’étaient probablement pas au courant que l’entraînement avait lieu. Il convient de noter que la jurisprudence en matière de consentement appuie la proposition selon laquelle le fait de ne pas savoir qu’une option de retrait du consentement est offerte peut invalider le consentementNote de bas de page 113.
- De plus, nous ne croyons pas que, même après le lancement de ChatGPT, un individu qui publiait du contenu sur un site Web visé par des conditions d’utilisation sans utiliser les paramètres de confidentialité aurait pu raisonnablement s’attendre à ce que ce contenu soit moissonné et utilisé aux fins de l’entraînement de modèles d’IA générative. En effet, plusieurs études ont démontré que la plupart des individus ne lisent pas ou ont de la difficulté à comprendre les conditions d’utilisation et les politiques de confidentialité des sites Web, qui sont souvent longues, complexes et à caractère trop juridiqueNote de bas de page 114. Même pour les utilisateurs qui ont l’intention de modifier leurs paramètres, la conception des paramètres de confidentialité des sites Web peut parfois être déroutante, voire trompeuse, ce qui rend plus difficile pour les utilisateurs d’avoir le contrôle sur leurs renseignements. Cela fait souvent en sorte que les personnes se sentent dépassées et éprouvent de grandes difficultés à gérer efficacement leurs paramètres de confidentialité afin qu’ils reflètent leurs choix.
- Nous constatons qu’il n’y a généralement aucun lien évident entre la publication de renseignements personnels en ligne par un individu dans un but précis (par exemple, pour communiquer avec des amis sur les médias sociaux, rédiger une évaluation de produit, publier une vidéo YouTube ou participer à une discussion sur un forum), et le moissonnage et l’utilisation subséquents de ces renseignements personnels pour entraîner des modèles d’IA développés par une organisation avec laquelle l’individu n’a aucun lien.
- Dans de nombreux cas, par exemple, lorsque les renseignements personnels d’un individu ont été publiés par une autre personne, l’individu en question pourrait ne même pas avoir été au courant que ses renseignements personnels sont en ligne et encore moins qu’ils pourraient être utilisés pour entraîner un modèle d’IA. Dans de telles circonstances, on ne peut présumer que tous les renseignements personnels publiés sur un individu ont été fournis par celui-ci, et qu’il est au courant de leur publication et a fourni son consentement à cet égard.
- Même dans les cas où un individu a intentionnellement rendu ses renseignements abondamment accessibles sur Internet, certains sites Web, en particulier ceux de médias sociaux, sont de nature dynamique, ce qui signifie que les individus peuvent, par exemple, modifier ou supprimer du contenu de leurs propres profils accessibles au public. Lorsque des renseignements sont extraits d’un tel site Web, l’individu perd ce contrôle sur ses renseignements personnels.
- OpenAI a fait valoir qu’en raison de l’attention importante accordée par le public à OpenAI et à ChatGPT découlant de la couverture médiatique à leur sujet partout dans le monde, il est possible que certains individus dont les renseignements personnels ont été inclus par accident dans ses ensembles de données d’entraînement aient visité le site Web d’OpenAI pour en apprendre davantage sur les pratiques de gestion des renseignements de la société.
- Nous trouvons que cette affirmation repose sur des suppositions et qu’elle fait porter une trop lourde responsabilité à ces individus. Dans tous les cas, même si un individu visitait le site Web d’OpenAI afin de comprendre les pratiques de la société en matière de protection de la vie privée :
- Il est peu probable que l’individu comprenne dans quelle mesure ses renseignements pourraient être inclus dans les ensembles de données d’entraînement de la société. Comme nous le verrons plus loin, nous constatons qu’OpenAI n’est pas suffisamment transparente quant à la nature et aux catégories de sites Web accessibles au public ou d’ensembles de données faisant l’objet d’une autorisation qu’elle utilise pour entraîner ses modèles.
- OpenAI aurait en réalité déjà recueilli les renseignements personnels de l’individu avant que ce dernier choisisse de se renseigner davantage sur OpenAINote de bas de page 115. Comme il a été mentionné précédemment, si les renseignements ont été publiés sur Internet avant le lancement de ChatGPT en novembre 2022, l’individu n’était probablement pas au courant de ChatGPT et n’aurait pas eu de raison de soupçonner que ses renseignements pourraient être utilisés pour entraîner le GML.
- En ce qui concerne les renseignements publiés par des tiers, OpenAI a soutenu que cette question ne devrait pas avoir une incidence importante sur l’analyse des attentes raisonnables. OpenAI a aussi indiqué que, lorsque des renseignements sont rendus publiquement accessibles sans restriction, il est raisonnable pour OpenAI d’agir en se basant sur le fait que tous ces renseignements ont été publiés de façon légale et appropriée, tout en reconnaissant que des recours existent au titre des lois applicables pour traiter les cas de communication illégale. Selon OpenAI, cette approche est particulièrement appropriée compte tenu du caractère non intrusif du traitement qu’elle effectue et des mesures d’atténuation mises en œuvre durant les différentes phases de développement et de déploiement de ses modèles.
- Comme il a été mentionné précédemment, nous estimons qu’il ne serait pas raisonnable de supposer que tous les renseignements rendus publiquement accessibles sans restriction ont été fournis alors que l’individu concerné était au courant de leur publication et qu’il avait fourni son consentement à cet égard. De plus, nous ne croyons pas qu’au moment de l’entraînement des modèles GPT-3.5 et GPT-4, les mesures d’atténuation mises en œuvre par OpenAI (notamment à l’étape du préentraînement) étaient suffisantes pour réellement réduire au minimum la présence de renseignements personnels dans les ensembles de données d’entraînement, que ces renseignements aient été publiés par les individus concernés ou par des tiers.
- Par conséquent, nous estimons que la collecte et l’utilisation par OpenAI de renseignements personnels obtenus à partir de sources accessibles au public et d’ensembles de données sous licence appartenant à un tiers aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4 dépassaient les attentes raisonnables des individus, de sorte qu’OpenAI ne pouvait pas compter sur le consentement implicite pour cette pratique.
Choix
- De plus, les lignes directrices sur le consentement expliquent qu’on ne peut obliger un individu à consentir à la collecte, à l’utilisation ou à la communication de ses renseignements personnels, à moins que ces activités ne soient essentielles à l’offre du produit ou du service – les individus doivent avoir le choix, et ce choix doit être clairement expliqué et facilement accessible.
- L’utilisation par OpenAI de renseignements personnels d’individus recueillis à partir de sites Web accessibles au public à des fins d’entraînement n’est pas essentielle à la prestation de ses services, même si elle peut être utile à OpenAI. Par conséquent, OpenAI doit offrir aux individus le choix de participer ou non à cette pratique.
- OpenAI a indiqué qu’elle offre aux individus la possibilité de demander que leurs renseignements personnels vérifiés soient supprimés pour les exécutions d’entraînement de modèles futurs et, si leurs renseignements apparaissent dans les résultats des modèles, de demander que leurs renseignements personnels vérifiés soient supprimés de ces résultats. Comme il est mentionné plus loin dans la section de l’enjeu 5, pour que la demande soit acceptée, il faut que certaines conditions soient respectées (en particulier, OpenAI doit être en mesure d’associer directement et de façon unique le demandeur aux renseignements en question).
- De façon semblable, lorsqu’OpenAI recueille des renseignements personnels auprès de sources tierces autorisées, c’est généralement à des fins non liées à celles pour lesquelles ils ont été recueillis à l’origine. Dans de tels cas, OpenAI serait tenue de veiller à ce que les individus concernés aient eu un choix avant que ces renseignements soient recueillis auprès du tiers.
- OpenAI a fait valoir que ses pratiques actuelles de partenariatNote de bas de page 116 en matière de données sont conformes à cette exigence pour diverses raisons. En plus de la possibilité de demander la suppression de renseignements personnels vérifiés (voir paragraphe 156), ces mesures comprennent ce qui suit :
- Comme l’a indiqué OpenAI, lors de la mise en place de ses partenariats en matière de donnéesNote de bas de page 117, elle ne cherche pas à obtenir des ensembles de données contenant des renseignements sensibles ou personnels, ou des renseignements appartenant à un tiers, et peut travailler avec ses partenaires pour supprimer de tels renseignements.
- OpenAI exige également de ses partenaires qu’ils fournissent certaines assurances contractuelles. Par exemple, au moment de l’entraînement des modèles GPT-3.5 et GPT-4, les parties à l’entente de partenariat en matière de données devaient garantir qu’elles avaient pris toutes les mesures nécessaires pour se conformer aux lois sur la protection des données. OpenAI a expliqué que les dispositions contractuelles comprennent désormais l’assurance supplémentaire que tout renseignement personnel pouvant être contenu dans des données fournies à OpenAI par l’intermédiaire du partenariat en matière de données a été publié, et que tous les avis et consentements nécessaires ont été obtenus, s’il y a lieu (par exemple, dans le cadre d’ententes avec des fournisseurs d’images de photothèque qui donnent accès à des ensembles de données contenant des photos de modèles qui ont fourni leur consentement).
- Comme il a été mentionné précédemment, OpenAI a déclaré qu’au moment de l’entraînement des modèles GPT-3.5 et GPT-4, les ensembles de données sous licence représentaient moins de 1 % de ses ensembles de données de préentraînement. Bien que nous n’ayons pas été en mesure de vérifier cette statistique, les Commissariats tiennent compte des observations d’OpenAI à ce sujet et s’attendent à ce que la société continue de déployer des efforts raisonnables (comme au moyen de la conclusion d’ententes écrites avec les tiers et d’une surveillance connexe pour veiller au respect de ces ententes) pour s’assurer que les tiers ont obtenu les renseignements personnels de manière légale et ont obtenu le consentement approprié de leurs utilisateurs, ou qu’ils peuvent se fier à une exception valide à l’exigence du consentement, pour communiquer les renseignements personnels de ces utilisateurs à OpenAI aux fins de l’entraînement de ses modèles.
Exemption visant les renseignements auxquels le public a accès
- Bien que cela n’ait pas été déclaré précisément par la partie intimée, pour les raisons énoncées ci-dessous, nous notons qu’OpenAI ne pourrait pas se fier à l’exemption de consentement visant les renseignements auxquels le public a accès en ce qui concerne le vaste éventail de renseignements personnels qu’elle recueille sur Internet.
- La LPRPDE, la PIPA de la Colombie-Britannique et la PIPA de l’Alberta comportent des exceptions à l’exigence de consentement lorsque le public a accès aux renseignements personnels en cause, comme il est prévu à l’alinéa 7(1)d) de la LPRPDE, aux alinéas 12(1)e), 15(1)e) et 18(1)e) de la PIPA de la Colombie-Britannique et aux alinéas 12e), 18e) et 20j) de la PIPA de l’AlbertaNote de bas de page 118. La définition de « renseignements auxquels le public a accès » est fournie dans le règlement de chaque loiNote de bas de page 119 et est distincte de la compréhension commune des « renseignements accessibles au public ».
- Les renseignements provenant de sources comme les médias sociaux ou les profils professionnels, qui sont recueillis à partir de sites Web publics, ne font pas partie de l’exception de la LPRPDE visant les renseignements auxquels le public a accèsNote de bas de page 120. De même, la PIPA de la Colombie-Britannique prévoit que les sources d’information publique, ce qui comprend les répertoires, les registres et les publications ainsi que les sites Web de médias sociaux et les moteurs de recherche, ne sont pas des sources désignées de renseignements auxquels le public a accès au titre de la Loi. Selon le sous-alinéa 7e)(ii) du règlement sur la PIPA de l’Alberta, il est raisonnable de supposer que l’individu auxquels se rapportent les renseignements personnels a fourni ces renseignements. Les éléments de preuve ci-dessus semblent indiquer que le moissonnage sans discernement de renseignements personnels à partir de sites Web, y compris les médias sociaux, par OpenAI ne respectera pas cette partie de l’exigence prévue à l’alinéa 7e) du règlement sur la PIPA de l’Alberta, étant donné qu’il est probable que les renseignements personnels recueillis sur ces sites comprennent ceux publiés par des tiersNote de bas de page 121. Par conséquent, selon les règlements, recueillir des renseignements à partir de ces sources ne serait autorisé que si un consentement valide est fourni et si les fins de cette collecte sont celles qu’une personne raisonnable estimerait acceptablesNote de bas de page 122.
- De façon plus générale, compte tenu des diverses sources à partir desquelles OpenAI recueille des renseignements personnels et du fait que ces renseignements sont utilisés à des fins non liées à celles pour lesquelles ils ont été publiés au départ, la collecte de ces renseignements n’est généralement pas considérée comme visant des renseignements auxquels le public a accès, tels qu’ils sont définis dans les LoisNote de bas de page 123.
- En réponse à notre rapport préliminaire, OpenAI a expliqué que l’exemption visant les renseignements auxquels le public a accès peut s’appliquer à certains ensembles de données qu’elle obtient dans le cadre de partenariats en matière de données et qui peuvent contenir des renseignements personnels (par exemple, des ensembles de données d’organes de presse comme Guardian Media Group ou News Corp, voir la note de bas de page 60). OpenAI a également indiqué que cette analyse pourrait s’étendre à d’autres ensembles de données comparables qui répondent à la définition de « renseignements auxquels le public a accès » au titre de la LPRPDE.
- Comme il a été mentionné précédemment, OpenAI a indiqué que les ensembles de données sous licence contiennent moins de 1 % des renseignements qu’elle recueille aux fins de l’entraînement de ses modèles. Compte tenu de la diversité des sources à partir desquelles OpenAI recueille des renseignements personnels, nous maintenons que ces renseignements ne constitueraient généralement pas des renseignements auxquels le public a accès tel que le terme a été défini au titre des Lois.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Nous estimons qu’OpenAI n’a pas obtenu de consentement valide pour sa collecte (par exemple, celle effectuée par son robot d’indexation GPTBot ou à partir de dépôts publics comme Common Crawl) et l’utilisation de renseignements personnels provenant de sites Web accessibles au public aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4.
- Par conséquent, le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique jugent qu’OpenAI a contrevenu à l’article 6.1 de la LPRPDE ainsi qu’à l’article 4.3 figurant au troisième principe de l’annexe 1 de la LPRPDE, aux articles 7 et 8 de la PIPA de l’Alberta, et aux articles 6 à 8 de la PIPA de la Colombie-Britannique.
Développements récents et conclusions au titre de la LPRPDE
- Comme il a été mentionné précédemment, en réponse à notre rapport préliminaire, OpenAI nous a informés qu’elle a récemment mis en œuvre un outil qui, selon elle, réduirait considérablement le traitement des renseignements personnels compris dans les données d’entraînement recueillies à partir de sources Internet accessibles au public et obtenues dans le cadre de partenariats. Plus précisément, OpenAI a déclaré que cet outil peut détecter et masquer un large éventail de renseignements permettant d’identifier des individus (comme des noms et des numéros de téléphone), ce qui permet de veiller à ce que les renseignements masqués ne soient pas utilisés pour entraîner les modèles. OpenAI a également indiqué que l’outil tient compte du contexte pour détecter si les renseignements sont de nature privée ou personnelle, et peut faire la distinction entre les renseignements personnels de particuliers, les renseignements personnels de personnalités publiques et les renseignements de personnages fictifs. OpenAI a également indiqué que l’outil peut détecter d’autres catégories de renseignements personnels qu’il n’a pas été entraîné à reconnaître.
- Comme il est mentionné au paragraphe 110, OpenAI a fourni aux Commissariats les résultats de ses évaluations internes, qui démontrent l’efficacité de l’outil pour détecter correctement les renseignements personnels et prendre des décisions conformes au jugement humain.
- Le CPVP croit que ce nouvel outil et les autres mesures d’atténuation d’OpenAI mises en œuvre aux différentes étapes du développement et du déploiement de ChatGPT (décrites en détail dans diverses sections du présent rapport et énumérées à l’annexe A) peuvent contribuer à réduire considérablement le risque que des renseignements personnels de particuliers (notamment les renseignements qui ne sont pas publiés par les individus eux-mêmes) et, plus particulièrement, des renseignements sensibles, se retrouveront dorénavant dans les ensembles de données utilisés pour entraîner les modèles d’IA d’OpenAI.
- Pour en arriver à ce constat, le CPVP, comme il est mentionné dans d’autres sections du présent rapportNote de bas de page 124, a également tenu compte des autres engagements d’OpenAI en matière d’ouverture et de transparence des modèles (notamment la publication et la promotion d’un billet de blogue canadien présentant ses pratiques en matière de protection de la vie privée) et de la décision de la société d’abandonner GPT-3.5 et GPT-4 et d’entraîner pleinement les modèles actuels qui alimentent ChatGPT en appliquant les nouvelles mesures d’atténuation.
- Le CPVP reconnaît également que le contexte entourant l’IA générative a considérablement évolué depuis le lancement de ChatGPT en novembre 2022. Il y a notamment eu une augmentation rapide de l’utilisation de ChatGPT et des GML en général et une adoption plus large de ceux-ci par les consommateurs. Même si ce n’était pas le cas lors du lancement initial de ChatGPT, les moteurs de recherche et les GML sont de plus en plus intégrés, et des aperçus générés par l’IA sont régulièrement associés aux réponses des moteurs de recherche. Par conséquent, il est maintenant plus probable que les individus aient entendu parler de cette technologie ou qu’ils l’aient utilisée et qu’ils aient acquis des connaissances de base sur les façons dont les modèles d’IA sont entraînés.
- Comme il a été noté dans un arrêt récent de la Cour suprême du Canada, l’interprétation des lois ne devrait pas être « figée dans le temps »; l’interprétation doit pouvoir « évoluer avec la technologie » conformément à l’objet de la loi. La Cour a indiqué que ce mode d’interprétation législative correspondait à de l’« interprétation dynamiqueNote de bas de page 125 ».
- Dans ce contexte, et compte tenu de la mise en œuvre des mesures d’atténuation existantes et nouvelles d’OpenAI (y compris celles énoncées au paragraphe 156) qui semblent réduire considérablement l’incidence sur la vie privée des particuliers, nous croyons que les individus sont maintenant de plus en plus susceptibles de s’attendre à ce que les futurs modèles d’OpenAI soient entraînés en utilisant des renseignements accessibles au public.
- Le CPVP reconnaît également que, malgré la mise en œuvre de cette combinaison de mesures d’atténuation, les futurs ensembles de données d’entraînement d’OpenAI contiendront probablement des renseignements personnels de particuliers, dont certains pourraient avoir été publiés il y a des années ou par des tiers sans que les individus concernés soient au courant. Toutefois, le CPVP croit qu’il est possible que ces renseignements représentent un petit sous-ensemble. De plus, conformément à une interprétation pragmatique et souple des Lois (dont il est question au paragraphe 46), et à la nécessité de tenir compte du droit à la vie privée des individus et du droit à la liberté d’expression et à la nécessité de faciliter l’utilisation des renseignements personnels à des fins commerciales appropriées, le CPVP croit que si les risques pour la vie privée sont considérablement atténués (notamment en entraînant les modèles à refuser de fournir des renseignements personnels ou sensibles dans leurs résultats), OpenAI pourrait compter sur le consentement implicite dans ce contexte.
- Par conséquent, conformément à ce qui précède, le CPVP estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
- Cette conclusion est fondée sur le fait que nous nous attendons à ce qu’OpenAI continue à mettre en œuvre les mesures d’atténuation de la façon décrite aux Commissariats et à les améliorer, et à mettre en place d’autres techniques novatrices de protection de la vie privée afin de bien gérer à l’avenir les risques en constante évolution que posent les produits qu’elle offre.
Conclusions au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- En ce qui concerne nos conclusions au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta, il est nécessaire d’obtenir des commentaires supplémentaires et d’effectuer une analyse plus approfondie. Conformément à un décret de la gouverneure en conseilNote de bas de page 126, les deux lois sont considérées comme essentiellement similaires à la partie 1 de la LPRPDE. Cette désignation et ce statut signifient que la PIPA de la Colombie-Britannique et la PIPA de l’Alberta, et non la LPRPDE, s’appliquent à la collecte, à l’utilisation et à la communication de renseignements personnels en Colombie-Britannique et en Alberta si l’organisation concernée n’est pas une entreprise fédéraleNote de bas de page 127. Toutefois, le statut « essentiellement similaire » n’exige pas que toutes les dispositions de chaque loi respective soient interprétées de la même façon, ni qu’il n’y ait pas de différences significatives entre les lois.
- Une différence considérable entre la PIPA de la Colombie-Britannique et la PIPA de l’Alberta, et la LPRPDE concerne les situations où une organisation recueille, utilise et communique des renseignements personnels sans le consentement exprès de l’individu concerné. Si l’organisation ne dispose pas d’une autorisation légale distincte pour se livrer à cette activité sans consentement, elle doit alors établir qu’elle dispose d’une autre forme de consentement valable malgré l’absence d’un consentement exprès.
- Dans l’analyse ci-dessus, le CPVP établit que, dans le contexte de l’entraînement des ensembles de données, OpenAI peut s’appuyer sur le « consentement implicite » pour la collecte et l’utilisation de renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées lorsque les risques pour la vie privée sont considérablement et significativement atténués (notamment en entraînant les modèles à refuser de fournir des renseignements personnels ou sensibles dans leurs résultats). Cette décision appuie la conclusion du CPVP selon laquelle la question est conditionnellement résolue au titre de la LPRPDE.
- Contrairement à la version anglaise de la LPRPDE, qui utilise « implied consent » pour rendre « consentement implicite », on utilise plutôt à l’article 8 de la PIPA de la Colombie-Britannique le terme « implicit consent » et au paragraphe 8(2) de la PIPA de l’Alberta le terme « deemed consent » ou la notion de consentement « by notice » pour désigner un consentement valide qui n’est pas expressément donné. Ces dispositions imposent également les exigences distinctes suivantes aux organisations qui cherchent à s’appuyer sur le consentement implicite, présumé ou sur avis lors de la collecte, de l’utilisation et de la communication de renseignements personnelsNote de bas de page 128 :
[Traduction]
Consentement implicite (PIPA de la Colombie-Britannique)
8 (1) Un individu est réputé consentir à la collecte, à l’utilisation ou à la communication de renseignements personnels par une organisation à des fins précises si :
a) au moment où le consentement est considéré comme donné, les fins seraient jugées évidentes pour une personne raisonnable;
b) l’individu fournit volontairement les renseignements personnels à l’organisation à ces fins.
(2) Un individu est réputé consentir à la collecte, à l’utilisation ou à la communication de renseignements personnels aux fins de son adhésion ou de sa protection au titre d’une assurance, d’un régime de pension, d’avantages sociaux ou d’un régime, d’une police ou d’un contrat semblable s’il :
a) est bénéficiaire ou a un intérêt en tant qu’assuré au titre du régime, de la police ou du contrat;
b) n’est pas le demandeur au titre du régime, de la police ou du contrat.
(3) Une organisation peut recueillir, utiliser ou communiquer des renseignements personnels sur un individu à des fins précises si :
a) l’organisation fournit à l’individu un avis, formulé d’une manière susceptible d’être raisonnablement comprise par celui-ci, indiquant son intention de recueillir, d’utiliser ou de communiquer ses renseignements personnels à ces fins;
b) l’organisation donne à l’individu la possibilité réelle de refuser, dans un délai raisonnable, que ses renseignements personnels soient recueillis, utilisés ou communiqués à ces fins;
c) l’individu ne refuse pas, dans le délai prévu à l’alinéa b), la collecte, l’utilisation ou la communication proposées;
d) la collecte, l’utilisation ou la communication des renseignements personnels est raisonnable compte tenu de la sensibilité des renseignements personnels dans les circonstances.
(4) Le paragraphe (1) n’autorise pas une organisation à recueillir, à utiliser ou à communiquer des renseignements personnels à des fins autres que celles auxquelles s’applique ce paragraphe.
Forme de consentement (PIPA de l’Alberta)
8(1) Un individu peut consentir, par écrit ou verbalement, à la collecte, à l’utilisation ou à la communication de renseignements personnels le concernant.
(2) Un individu est réputé consentir à la collecte, à l’utilisation ou à la communication de renseignements personnels le concernant par une organisation à des fins données :
(a) si l’individu, sans donner réellement le consentement visé au paragraphe (1), fournit volontairement les renseignements à l’organisation à ces fins;
(b) s’il serait raisonnable qu’un individu fournisse volontairement ces renseignements.
(2.1) Si un individu consent à ce qu’une organisation communique à une autre des renseignements personnels le concernant à des fins données, il est réputé consentir à la collecte, à l’utilisation ou à la communication des renseignements personnels à ces fins par cette autre organisation.
(2.2) Un individu est réputé consentir à la collecte, à l’utilisation ou à la communication de renseignements personnels le concernant par une organisation aux fins de son adhésion ou de sa protection au titre d’une police d’assurance, d’un régime ou d’un contrat qui prévoit un type de couverture ou d’avantage similaire si cet individu :
a) a un intérêt dans cette police, ce régime ou ce contrat ou en tire un avantage;
b) n’est pas le demandeur de la police, du régime ou du contrat.
(3) Nonobstant le paragraphe 7(1), une organisation peut recueillir, utiliser ou communiquer des renseignements personnels concernant un individu à des fins données si :
a) l’organisation :
i) donne à l’individu un avis, sous une forme qu’il devrait vraisemblablement comprendre, selon lequel elle a l’intention de recueillir, d’utiliser ou de communiquer les renseignements personnels le concernant à ces fins;
ii) relativement à cet avis, donne à l’individu la possibilité raisonnable de refuser que ses renseignements personnels soient recueillis, utilisés ou communiqués à ces fins, ou de s’y opposer;
b) l’individu ne donne pas à l’organisation, dans un délai raisonnable, une réponse indiquant qu’il refuse la collecte, l’utilisation ou la communication proposée, ou s’y oppose;
c) compte tenu du degré de sensibilité, le cas échéant, des renseignements en cause, il est raisonnable de les recueillir, de les utiliser ou de les communiquer dans la mesure permise aux alinéas a) et b).
- En examinant la collecte et l’utilisation par OpenAI de renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées, il n’est pas évident pour le CIPVP de la Colombie-Britannique ou le CIPVP de l’Alberta qu’OpenAI a satisfait à l’une des exigences relatives au consentement implicite au titre de l’article 8 de la PIPA de la Colombie-Britannique ou au consentement réputé ou sur avis au titre de l’article 8 de la PIPA de l’Alberta :
- OpenAI n’a pas établi que les renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées ont été fournis à OpenAI par les individus concernés ni que les individus ont fourni leurs renseignements personnels dans le but d’entraîner les ensembles de données ChatGPT d’OpenAI, conformément à l’alinéa 8(1)b) de la PIPA de la Colombie-Britannique et aux alinéas 8(2)a) et 8(2)b) de la PIPA de l’Alberta;
- OpenAI n’a pas recueilli, utilisé et ne propose pas de recueillir, d’utiliser et de communiquer les renseignements personnels des individus aux fins de leur adhésion ou de leur protection au titre d’une assurance, d’un régime de pension, d’avantages sociaux ou d’un régime, d’une police ou d’un contrat similaire, conformément au paragraphe 8(2) de la PIPA de la Colombie-Britannique et au paragraphe 8(2.2) de la PIPA de l’Alberta;
- OpenAI n’a pas établi que les individus concernés ont reçu un avis d’OpenAI indiquant que la société avait l’intention de recueillir, d’utiliser ou de communiquer les renseignements personnels de ces individus à des fins précises, conformément à l’alinéa 8(3)a) de la PIPA de la Colombie-Britannique et au paragraphe 8(3) de la PIPA de l’Alberta.
- La PIPA de la Colombie-Britannique et la PIPA de l’Alberta ne permettent pas à une organisation d’établir un consentement implicite, présumé ou sur avis, respectivement, en fonction de l’évolution des attentes sociétales à l’égard de l’IA et des mesures prises par l’organisation pour atténuer de manière importante et efficace les risques d’atteinte à la vie privée. Par conséquent, bien que les mesures prises par OpenAI en vue d’atténuer les risques d’atteinte à la vie privée des individus aient appuyé les conclusions du CPVP en ce qui concerne le consentement implicite, ces mesures ne sont pas suffisantes pour établir le consentement implicite au titre de la PIPA de la Colombie-Britannique ou le consentement présumé ou sur avis au titre de la PIPA de l’Alberta.
- Compte tenu des obligations précises pour établir le consentement implicite au titre de la PIPA de la Colombie-Britannique et le consentement présumé ou sur avis au titre de la PIPA de l’Alberta, et du fait qu’OpenAI n’ait pas réussi à établir que ses activités répondent à ces critères, OpenAI ne peut pas s’appuyer sur le consentement implicite au titre de la PIPA de la Colombie-Britannique ni sur le consentement présumé ou sur avis au titre de la PIPA de l’Alberta pour recueillir et utiliser des renseignements personnels provenant de sites Web accessibles au public et de sources tierces autorisées lors de l’entraînement de ses modèles, lorsque cet entraînement est effectué de la même manière qu’OpenAI a entraîné les modèles GPT-3.5 et GPT-4.
- Par conséquent, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta estiment que cet élément de la plainte est fondé et non résolu au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta.
- En ce qui concerne les modèles ChatGPT futurs et non examinés, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta refusent de tirer des conclusions sur la collecte et l’utilisation futures de renseignements personnels et sur la question de savoir si ces activités répondent aux exigences relatives au consentement implicite au titre de la PIPA de la Colombie-Britannique ou au consentement présumé ou sur avis au titre de la PIPA de l’Alberta. Le CIPVP de la Colombie-Britannique informe OpenAI des obligations précises relatives au consentement implicite au titre de l’article 8 de la PIPA de la Colombie-Britannique, qui s’appliquent à toute collecte ou utilisation de renseignements personnels sur la base d’un consentement implicite. De même, le CIPVP de l’Alberta informe OpenAI des obligations précises relatives au consentement présumé au titre du paragraphe 8(2) et au consentement sur avis au titre du paragraphe 8(3) de la PIPA de l’Alberta, qui s’appliquent à toute collecte ou utilisation de renseignements personnels sur la base d’un consentement présumé ou sur avis.
Analyse au titre de la LPRPSP du Québec
- Les règles relatives au consentement prévues dans la LPRPSP du Québec se distinguent du cadre d’analyse utilisé par le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique, notamment du fait que la LPRPSP ne prévoit pas spécifiquement un critère équivalent à celui « des fins qu’une personne raisonnable estimerait acceptables dans les circonstances ».
- Notamment, selon la LPRPSP, une entreprise qui recueille des renseignements personnels directement auprès d’une personne concernée âgée de 14 ans ou plus est soumise à une obligation d’informationNote de bas de page 129.
- Cependant, la notion de consentement demeure un élément central de la Loi, car, dans les faits, c’est le consentement qui permet aux personnes d’exercer un contrôle sur l’utilisation et la communication de leurs renseignements personnelsNote de bas de page 130.
- Par exemple, lorsque la collecte est effectuée auprès d’un tiers et non auprès de la personne concernée, ou auprès d’une personne âgée de moins de 14 ans, cette collecte nécessite en principe un consentementNote de bas de page 131. Plus particulièrement, en ce qui a trait à la personne de moins de 14 ans, ce consentement doit en principe être obtenu auprès du titulaire de l’autorité parentale ou du tuteur.
- La collecte de renseignements personnels sur le Web ne relève pas d’un contexte unique et peut comporter de multiples variantes qu’il faut analyser et prendre en compte, afin de déterminer la validité du consentement émis par la personne concernée dans un contexte donné.
- De même, certaines utilisations à des fins secondaires ainsi que certaines communications faites à des tiers peuvent nécessiter l’obtention d’un consentementNote de bas de page 132.
- Une entreprise qui recueille, utilise ou communique des renseignements personnels devrait être en mesure de suffisamment documenter le contexte dans lequel ces renseignements ont été recueillis afin de s’assurer, selon la situation, que l’obligation d’information a été conformément respectée ou qu’un consentement valide a été obtenu.
- Dans le cadre de ses observations, OpenAI a indiqué avoir recueilli des renseignements auxquels le public a accès et qui, de manière incidente, pouvaient inclure des renseignements personnels aux fins de l’entraînement des modèles GPT-3.5 et GPT-4.
- Le caractère incident ou non de la collecte n’a pas de répercussion sur l’obligation pour une entreprise de respecter la LPRPSP du Québec, puisque, dans les faits, il y a eu collecte de renseignements personnels.
L’exception relative au matériel journalistique, historique et généalogique prévue au quatrième alinéa de l’article 1 de la LPRPSP
- Dans le cadre de ses observations aux Commissariats, OpenAI a soulevé un argument subsidiaire selon lequel, de manière générale, les renseignements personnels qu’elle a recueillis auprès de sites Web accessibles au public et par le biais d’ententes d’échange de données tomberaient sous l’exception prévue à l’alinéa 4 de l’article 1 de la LPRPSP du Québec, soit l’exception relative au matériel journalistique, historique ou généalogique à une fin d’information légitime du public.
- Bien que cet argument soit subsidiaire, puisqu’OpenAI soutient que cette exception s’applique de manière générale au matériel qu’elle recueille, utilise et communique, la CAI procédera d’abord à l’analyse de cette exception avant de traiter des règles relatives à l’obligation d’information et au consentement.
- OpenAI affirme que cette exception s’appliquerait à la collecte et à l’utilisation du contenu informationnel accessible au public aux fins de recherche, d’entraînement et de développement des modèles d’intelligence artificielle à usage général (IAUG)Note de bas de page 133.
- De même, OpenAI soutient que :
- Ses activités d’entraînement qui concernent la collecte et le traitement de tels renseignements permettent à ses modèles de contextualiser les invites des utilisateurs, de comprendre les références communes dans la communication humaine, de répondre aux questions, de participer aux discussions et de fournir des réponses pertinentes aux invites, et sont conformes à la portée ainsi qu’à l’objectif de cette exemption.
- Ces activités sont expressives par nature, font la promotion de l’accès au savoir, soutiennent l’information légitime du public dans des domaines tels que l’actualité, l’histoire, la science et la culture, et facilitent une compréhension plus large du public aux enjeux sociaux d’importance.
- Cette exception devrait être interprétée de manière à concilier l’objectif de protection des renseignements personnels que vise la Loi avec la protection constitutionnelle de la liberté d’expression.
- Cette exception devrait faire l’objet d’une interprétation large et libérale afin d’englober les activités tel l’entraînement des modèles d’IAUGNote de bas de page 134.
- L’alinéa 4 de l’article 1 de la LPRPSP du Québec prévoit que la collecte, la détention, l’utilisation ou la communication de matériel journalistique, historique ou généalogique à une fin d’information légitime du public est exclue de la portée de la Loi.
- D’entrée de jeu, la CAI est en accord avec le fait que, selon le contexte, certains des renseignements recueillis et utilisés par OpenAI aux fins de l’entraînement de ses modèles pourraient être visés par la portée de cette exception.
- Par exemple, la CAI reconnaît que cette exception peut s’appliquer aux ensembles de données obtenus par l’intermédiaire d’ententes de partenariat avec des éditeurs de nouvelles et de journaux reconnus.
- Toutefois, la CAI ne partage pas la position telle que formulée par OpenAI selon laquelle l’ensemble de ses activités qui ont à trait à l’entraînement de ses modèles sont conformes à la portée et à l’objectif de cette exceptionNote de bas de page 135.
- À l’appui de sa position, OpenAI fait référence au critère en trois volets, développé dans le cadre de la décision rendue dans l’affaire Institut généalogique Drouin c. Commission d’accès à l’information du QuébecNote de bas de page 136 et repris dans le cadre de la décision rendue dans l’affaire Morin-Lachance c. La Presse inc.Note de bas de page 137.
- Selon ce critère, pour être visée par l’exception prévue au paragraphe 4 de l’article 1 de la LPRPSP du Québec, l’activité doit consister en :
- la collecte, la détention, l’utilisation ou la communication;
- de matériel journalistique, historique ou généalogique;
- à une fin d’information légitime du public.
- Cependant, la CAI note que le contexte du présent cas se distingue des contextes dans lesquels cette exception a été analysée dans les affaires Institut généalogique Drouin et Morin-Lachance.
- Dans l’affaire Institut généalogique Drouin, la nature généalogique du matériel n’était pas remise en cause et l’analyse portait plus spécifiquement sur la notion d’information légitime du publicNote de bas de page 138. Dans l’affaire Morin-Lachance, le caractère journalistique du matériel était sans équivoque, alors qu’en l’espèce, c’est précisément cette notion de matériel journalistique qui doit être analysée.
- La notion de matériel journalistique n’est pas définie dans la Loi.
- OpenAI soutient que l’objectif de cette exception est de veiller à ce que toute information servant le but légitime d’informer le public demeure accessible et invite à une interprétation large du cadre de cette exception.
- En revanche, la CAI estime que l’interprétation proposée par OpenAI est trop large et qu’elle aurait pour effet de restreindre de manière importante les protections accordées par la Loi.
- La CAI estime plutôt que chaque situation doit être interprétée en fonction d’un contexte défini et que l’on ne peut recourir d’une manière dite « générale » à cette exception, puisque le matériel en question doit pouvoir, à la pièce, se qualifier à titre de matériel journalistique, historique ou généalogique.
- En ce qui a trait au matériel journalistique, les critères développés dans la décision rendue dans l’affaire A.T. c. Globe24h.comNote de bas de page 139 et repris dans d’autres décisions canadiennesNote de bas de page 140 viennent définir ce que peut constituer du matériel journalistique.
- Selon ce critère, afin de pouvoir être qualifiée de matériel journalistique, l’activité en question doit :
- avoir pour objectif d’informer la collectivité sur des questions qui l’intéressent;
- concerner un élément de production originale;
- être guidée par une autodiscipline visant à présenter une description exacte et juste des faits, des opinions et des débats d’une situation.
- La CAI estime que ce n’est pas l’ensemble de l’information que l’on retrouve sur le Web qui peut être qualifiée de matériel journalistique selon ce critère.
- À cet égard, la CAI est d’accord avec la Cour d’appel de l’Alberta lorsqu’elle indique, dans le cadre de son analyse d’une exception similaire, qu’il serait déraisonnable de penser que le législateur a conçu cette exception de manière telle à inclure toute forme d’information qui pourrait être considérée comme de la liberté d’opinion et d’expression, et que ce n’est pas chaque élément d’information publié sur Internet qui peut être qualifié de matériel journalistiqueNote de bas de page 141.
- De plus, la CAI comprend de la formulation des arguments soulevés par OpenAI que cette dernière considère que le résultat final découlant de l’exploitation de ses modèles GPT-3.5 et GPT-4 constitue en soi du matériel journalistique. Or, la CAI ne partage pas cette position.
- Il est vrai que les fonctionnalités de ChatGPT permettent aux utilisateurs de s’informer sur des sujets qui sont d’intérêt pour eux.
- Cependant, l’approche de ces modèles qui se base sur une approche statistique d’un volume important de données, sans orientation ni réflexion sur les questions qui intéressent réellement les collectivités, s’éloigne de l’approche journalistique.
- Ces outils visent plutôt à répondre aux questions qu’un individu se pose plutôt qu’à informer une collectivité sur des enjeux qui la concernent.
- À cet effet, les activités des modèles GPT-3.5 et GPT-4 ne respectent pas le premier volet du critère.
- Concernant le deuxième volet, bien que les modèles GPT-3.5 et GPT-4 peuvent dans une certaine mesure créer du contenu à partir des données d’entraînement, la CAI estime que ces résultats ne peuvent être considérés comme de la production originale au sens journalistique du terme.
- Dans les faits, ces résultats proviennent de statistiques établies par les modèles à partir des données d’entraînement, afin de déterminer quels mots seront les plus probables dans une phrase donnée et d’ainsi pouvoir répondre aux invites des utilisateurs.
- Ce processus est basé sur une approche statistique du langage et n’implique pas le type de jugement éditorial qui guide habituellement la production originale d’un contenu journalistiqueNote de bas de page 142.
- Quoi qu’il en soit, la nature probabiliste de ces modèles et les problèmes relatifs à l’exactitude des réponses fournies par ceux-ci, comme ils sont présentés dans la section de l’enjeu 4 du présent rapport, font en sorte que les renseignements communiqués par ces modèles ne peuvent être qualifiés de matériel journalistique selon le troisième volet du critère établi dans la décision Globe24hNote de bas de page 143.
- La méthodologie employée pour l’entraînement de ces modèles ne relève pas d’une méthodologie propre au journalisme qui tend à reproduire une description exacte et juste des faits, des opinions et des débats que peut apporter une situation.
- Bien que l’entraînement des modèles GPT-3.5 et GPT-4 se distingue des techniques du référencement effectuées notamment par Google, la CAI considère tout de même qu’OpenAI n’a pas totalement le contrôle sur le contenu des résultats qu’affichent ses modèlesNote de bas de page 144.
- Bien que ce contenu puisse être influencé par les données et les méthodes d’entraînement, il n’en demeure pas moins que ce processus comporte un volet aléatoire sur lequel OpenAI n’a pas de véritable contrôle.
- Concernant l’argument soulevé par OpenAI selon lequel cette exception prévue à la LPRPSP du Québec devrait être interprétée à la lumière des valeurs constitutionnelles qui soutiennent la liberté d’expression et le droit d’accès à l’information, la CAI estime que l’interprétation de l’application de cette exception prévue à la LPRPSP du Québec ne relève pas d’un pouvoir discrétionnaire exigeant une mise en balance de valeurs concurrentes, mais plutôt d’une question d’interprétation de la LoiNote de bas de page 145.
- L’exercice d’interprétation qu’appelle cette exception consiste à vérifier si les circonstances de faits nécessaires à l’application de la norme sont présentes et ne laissent pas de choix au décideur quant à la pertinence des mesures à prendreNote de bas de page 146. Par conséquent, le pouvoir exercé par la CAI dans le cadre de l’interprétation de cette exception ne peut être qualifié de pouvoir discrétionnaire.
- En fin de compte, considérant que ce n’est pas l’ensemble des renseignements recueillis, utilisés et communiqués par OpenAI qui sont exclus de la portée de la LPRPSP du Québec, à l’exception du matériel recueilli qui peut réellement être qualifié de matériel journalistique, OpenAI doit se conformer aux règles relatives à l’obligation d’information et au consentement prévues par la Loi.
Règles relatives à l’obligation d’information qui s’appliquent dans le cadre d’une utilisation des renseignements personnels à des fins primaires
- L’article 6 de la LPRPSP du Québec prévoit, sous réserve de certaines exceptionsNote de bas de page 147, la règle générale voulant que toute personne qui recueille des renseignements personnels sur autrui doive les recueillir auprès de la personne concernée, à moins que celle-ci ne consente à la collecte auprès de tiersNote de bas de page 148.
- Lorsque la collecte est effectuée directement auprès de la personne concernée, l’article 8 de la LPRPSP du Québec prévoit l’obligation d’informer cette personne des éléments suivants :
- Des fins auxquelles ces renseignements sont recueillis;
- Des moyens par lesquels ces renseignements seront recueillis;
- Des droits d’accès et de rectification prévus par la loi;
- De son droit de retirer son consentement à la communication ou à l’utilisation des renseignements recueillis.
- De même, le deuxième alinéa de l’article 8 prévoit que, lors de la collecte, la personne concernée doit être informée des tiers ou des catégories de tiers à qui il est nécessaire de communiquer les renseignements personnels recueillis afin de réaliser les fins communiquées.
- Le dernier alinéa de l’article 8 prévoit que l’information transmise à la personne concernée, dont les fins pour lesquelles ses renseignements personnels sont recueillis, doit être formulée en des termes simples et clairs.
- L’article 8.3 prévoit que toute personne qui fournit ses renseignements après avoir été informée conformément à l’article 8 est présumée consentir à l’utilisation de ces renseignements personnels et à leur communication pour réaliser les fins qui lui ont été communiquées.
- Ces règles, que l’on retrouve sous la section II de la Loi intitulée « Collecte de renseignements personnels », s’adressent à une fin qui est dite « primaire » et qui justifie l’utilisation ou la communication des renseignements personnels recueillis.
- Concernant l’utilisation des renseignements personnels au sein de l’entreprise, l’article 12 de la LPRPSP du Québec prévoit qu’un renseignement personnel ne peut être utilisé au sein de l’entreprise qu’aux fins pour lesquelles il a été recueilli, à moins du consentement de la personne concernée.
Règles relatives au consentement qui s’appliquent dans le cadre d’une utilisation des renseignements personnels à des fins secondaires
- L’article 12 de la LPRPSP du Québec prévoit des situations précises pour lesquelles un renseignement personnel peut être utilisé à des fins secondaires, et ce, sans le consentement de la personne concernée. Cependant, la CAI estime que les exceptions prévues par cet article ne peuvent trouver application en l’espèce.
- Concernant une utilisation à une fin dite « secondaire », l’article 13 de la LPRPSP du Québec prévoit que nul ne peut communiquer à un tiers les renseignements personnels qu’il détient sur autrui, à moins que la personne concernée n’y consente ou que la loi ne le prévoie.
- De même, cet article précise que lorsque dans ce contexte les renseignements communiqués sont des renseignements sensibles, ce consentement doit être manifesté de façon expresse.
- Finalement, l’article 14 prévoit que le consentement prévu par la Loi doit être manifeste, libre, éclairé et être donné à des fins spécifiques. La demande de consentement doit être faite en des termes simples et clairs et lorsque faite par écrit, cette demande doit être présentée distinctement de toute autre information.
Règles relatives au consentement qui s’appliquent à des renseignements personnels concernant des personnes de moins de 14 ans
- L’article 4.1 de la LPRPSP du Québec prévoit que les renseignements personnels concernant un mineur de moins de 14 ans ne peuvent être recueillis directement auprès de celui-ci sans le consentement du titulaire de l’autorité parentale ou du tuteur, sauf lorsque cette collecte est manifestement au bénéfice de ce mineur.
- L’article 14 de la LPRPSP précise que le consentement d’un mineur de 14 ans et plus peut être donné par le mineur lui-même, par le titulaire de l’autorité parentale ou par le tuteur.
- Finalement, comme le prévoient les orientations relatives à l’intérêt des jeunes en matière de vie privée et d’accès aux renseignements personnels, la CAI, comme plusieurs autres Commissariats, considère que les renseignements personnels relatifs aux enfants sont particulièrement sensiblesNote de bas de page 149.
Renseignements recueillis par OpenAI auprès de sources publiques
- Comme il est précisé au paragraphe 51 et aux paragraphes suivants, il est d’abord établi qu’OpenAI a utilisé, aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4, des renseignements recueillis à l’aide du moissonnage de données, ce qui inclut le moissonnage effectué à l’aide de l’outil GPTBot ou des renseignements rendus accessibles sur des sources d’information ouvertes telles Common Crawl et Wikipédia.
- Concernant cette collecte, OpenAI a précisé :
- que lorsqu’elle recueillait des données accessibles au public, elle ne contournait pas les processus liés aux verrous d’accès payant et aux sites Web protégés par des comptes;
- qu’elle ne recueillait pas de renseignements sur le Web clandestin ou auprès de groupes de discussion fermés.
- De plus, OpenAI a indiqué qu’elle considérait que :
- dans les situations où les personnes concernées ont rendu accessibles au public des renseignements personnels sans restriction, l’attente en matière de protection de la vie privée relative à ces renseignements était diminuée et que, dans ces circonstances, un consentement tacite ou implicite pouvait être inféré pour un accès subséquent et une réutilisation par un tiers à des fins légitimes;
- dans ce contexte, les renseignements rendus accessibles au public ne respectent habituellement pas la définition de renseignements personnels sensibles et, de ce fait, ces renseignements entraînent généralement des attentes réduites en matière de protection de la vie privée.
- Sur ce point, la LPRPSP du Québec ne confère pas aux renseignements personnels un caractère public du seul fait qu’ils sont diffusés sur le WebNote de bas de page 150. Le dernier alinéa de l’article 1 de la LPRPSP du Québec prévoit une exception concernant les renseignements personnels qui ont un caractère public en vertu de la Loi, mais cette exception ne peut trouver application en l’espèce.
- La CAI estime que l’approche à adopter dans ce contexte devrait être plus nuancée et qu’il ne faudrait pas nécessairement déduire du fait qu’un renseignement personnel est publié sur le Web sans restriction, que la personne concernée a, selon le contexte, été correctement informée de l’utilisation ou de la communication qui pourrait en être faite ou qu’un consentement a bien été obtenu.
- Dans le cadre du moissonnage de données sur Internet, ce n’est que dans de rares exceptions que la collecte peut être considérée comme effectuée directement auprès de la personne concernée. Cette situation peut notamment se produire lorsque le moissonnage est effectué directement sur une page Web appartenant réellement à la personne concernée ou lorsque les conditions de services le prévoient explicitement.
- Lorsqu’il est question de réseaux sociaux, de manière générale et sous réserve de conditions de service qui seraient à l’effet contraire, les renseignements publiés doivent faire l’objet de licences attribuées par utilisateur, afin de permettre à ces réseaux sociaux de publier ces renseignements. Généralement, dans ce contexte, on ne peut considérer que ces renseignements sont recueillis directement auprès de la personne, et on doit habituellement se référer aux règles qui concernent la collecte auprès de tiers.
- Cependant, il est tout à fait possible que des utilisateurs, en fonction de l’information fournie lors de la collecte, et des conditions de service et des politiques de confidentialité en vigueur, disposent de l’information adéquate et, par ce fait, consentent à ce que leurs renseignements personnels soient rendus accessibles sur le Web et, par conséquent, communiqués à des tiers ainsi que moissonnés aux fins d’entraînement de modèles d’IA. Par contre, cette analyse doit être effectuée au cas par cas en prenant en compte tous les éléments en cause.
- Cela dit, la preuve au dossier et les observations d’OpenAI n’établissent pas de manière exhaustive les sources Internet à partir desquelles l’outil GPTBot a procédé à de la collecte de renseignements personnels et sur lesquelles l’archive de données Common Crawl se base.
- À titre d’exemple, la politique de confidentialité actuelle de WikipédiaNote de bas de page 151 spécifie que, lorsqu’une personne fait une contribution sur ce site, cette dernière crée un enregistrement public et permanent de chaque élément de contenu ajouté, supprimé ou modifié par l’utilisateur.
- Nous pouvons nous demander si une divulgation faite aux utilisateurs indiquant que leurs renseignements personnels seront rendus accessibles sur le Web est suffisamment précise pour permettre la collecte au moyen du moissonnage de données et l’utilisation aux fins de l’entraînement de modèles d’IA.
- À cet effet, la CAI estime que la pratique exemplaire dans les circonstances serait d’indiquer en détail les conséquences de rendre publiquement accessibles sur le Web un renseignement personnel et de spécifier que ces conséquences peuvent inclure le moissonnage de données aux fins de l’entraînement de modèles d’IA.
- Malgré cela, la CAI envisage tout de même qu’une personne raisonnable et bien informée, compte tenu de son âge, des renseignements fournis et notamment de leur simplicité et de leur clarté, devrait être au fait des conséquences de rendre accessible sur le Web ses renseignements personnels ainsi que du fait que ces derniers, une fois publiés, pourraient être utilisés par des tiers à d’autres fins légitimes.
- Concernant l’argument soulevé par OpenAI selon lequel la question du consentement engage une interprétation qui doit réconcilier les valeurs protégées par la Charte, dont la liberté d’expression, la CAI estime que la question de l’obligation d’information prévue à l’article 8 de la LPRPSP du Québec ne concerne pas une décision de nature discrétionnaire qui laisse au décideur un choix d’options à l’intérieur des limites imposées par la LoiNote de bas de page 152. La question de savoir si la personne concernée a été ou non correctement informée des fins pour lesquelles ses renseignements personnels ont été recueillis est une question de fait et non une question qui permet une interprétation pondérée en fonction des valeurs protégées par la Charte.
- Selon le contexte, il est aussi possible que les renseignements personnels rendus accessibles sur le Web, dont sur Wikipédia, concerne une personne de moins de 14 ans ou aient été publiés par un tiers plutôt que par la personne concernée, et ce, sans consentement.
- À ce sujet, la position exprimée par OpenAI est que, lorsque des renseignements personnels sont publiés en ligne par un tiers, il serait raisonnable dans ce contexte de présumer que la publication de ces renseignements a été autorisée par la personne concernée.
- La CAI, considère qu’OpenAI devrait plutôt prendre en compte le contexte général de la publication afin de s’assurer que les renseignements personnels en cause ne sont pas communiqués sans consentement et, dans le doute, elle devrait s’abstenir de les recueillir plutôt que de se fier à une telle présomption.
- De même, la CAI juge que la société devrait aussi vérifier que la publication de tels renseignements ne relève pas d’une communication sans consentement faite dans le cadre d’une utilisation à une fin dite « secondaire » d’un renseignement personnel recueilli initialement à une autre fin par un tiers, ou d’une publication de renseignements personnels qui concernent une personne de moins de 14 ans et qui ont été communiqués sans le consentement du titulaire de l’autorité parentale ou du tuteur.
- Concernant la question des fins dites « secondaires », OpenAI a fait valoir que l’article 13 de la LPRPSP du Québec ne s’appliquait pas à la collecte des renseignements personnels accessibles sur le Web qu’elle effectue ou aux renseignements personnels qu’elle obtient par l’intermédiaire d’ententes de partenariat visant l’échange de données.
- Elle soutient que d’interpréter cet article comme applicable en l’espèce serait l’équivalent de confondre les sphères de la collecte et de la communication, aurait pour effet de rendre redondantes les dispositions précises de la Loi qui gouvernent la collecte, saperait la cohérence des sections de la Loi et serait contraire aux principes d’interprétation législative.
- La CAI estime au contraire que l’article 13 de la LPRPSP du Québec vient compléter les règles énoncées aux articles 6 et 8, et aux articles suivants de la Loi en spécifiant que, dans le cadre d’une utilisation de renseignements personnels à des fins dites « secondaires », nul ne peut communiquer à un tiers un renseignement qu’il détient sur autrui sans que la personne concernée y ait consenti, à moins d’une exception explicitement prévue par la Loi.
- À cet effet, dans le cadre des débats parlementaires concernant le projet de loi no 64, il a été précisé que l’article 13 de la LPRPSP du Québec ne vise pas la collecte qui est dite « de première main », mais qu’il s’applique plutôt aux situations où un tiers veut communiquer les renseignements personnels à une autre partieNote de bas de page 153.
- La CAI considère que l’interprétation proposée par OpenAI, selon laquelle la collecte et la communication de renseignements personnels à des tiers sont des concepts distincts, va à l’encontre du fait qu’un renseignement personnel peut avoir plusieurs cycles de vie auprès de diverses organisations.
- En l’espèce, ce n’est pas l’interprétation de la Loi qui crée une tautologie, mais bien la répétition dans les faits. Lorsqu’il y a communication d’un renseignement personnel par un tiers, il y a nécessairement collecte de ce même renseignement par la partie à qui le renseignement est communiqué et, de ce fait, un nouveau cycle de vie est débuté auprès de cette nouvelle organisation. Le pendant de la communication d’un renseignement personnel à un tiers ne peut être que la collecte de ce renseignement par ce même tiersNote de bas de page 154.
- De même, les articles 7 et 15 de la LPRPSP du Québec sont des illustrations du lien qui existe entre les dispositions qui concernent la collecte et celles qui concernent la communication des renseignements personnelsNote de bas de page 155.
- Selon le contexte, la publication de renseignements personnels sur le Web pourrait relever d’une utilisation à une fin dite « secondaire » d’un renseignement recueilli à une autre fin et constituer une communication sans consentement au titre de l’article 13 de la LPRPSP du Québec.
- De même, l’argument présenté par OpenAI fait abstraction du fait qu’un renseignement personnel détenu par OpenAI à des fins d’entraînement puisse être communiqué à un utilisateur par le modèle.
- OpenAI n’a pas été en mesure de démontrer que dans le cadre des renseignements personnels recueillis auprès de sources d’information accessibles sur le Web, des sources dites « publiques », elle avait suffisamment documenté le contexte dans lequel l’obligation d’information auprès de la personne concernée a été respectée ou, si nécessaire, de démontrer que le consentement a été obtenu, le tout afin de s’assurer que de telles collectes étaient conformes à la LPRPSP du Québec.
- La CAI conclut que davantage de vérifications devraient être mises en place par OpenAI relativement aux sources à partir desquelles la collecte des renseignements personnels est effectuée afin, selon le contexte :
- de s’assurer que les personnes concernées ont clairement été informées lors de la collecte initiale qu’en fournissant leurs renseignements personnels, ces derniers seront rendus publics et, par le fait même, qu’ils pourraient ainsi être recueillis, utilisés par des tiers, notamment aux fins de l’entraînement de modèles d’IA, ainsi que communiqués par ces derniers;
- de s’assurer que la communication de ces renseignements personnels ne constitue pas une communication faite par un tiers sans consentement ou une communication de renseignements personnels qui concernent une personne de moins de 14 ans, et ce, sans le consentement du titulaire de l’autorité parentale ou du tuteur.
- En l’absence de la démonstration que de telles vérifications ont été effectuées, la CAI conclut qu’OpenAI n’a pas été en mesure de démontrer que ses pratiques relatives à la collecte de renseignements personnels effectuée à partir de sources Internet accessibles au public et auprès de tiers autorisés, à l’utilisation de ces renseignements aux fins de l’entraînement des modèles GPT-3.5 et GPT-4 ainsi qu’à la communication de ces renseignements personnels aux utilisateurs de ces modèles respectaient les articles 6, 13 et 14 ainsi que le paragraphe 12(1) de la LPRPSP du QuébecNote de bas de page 156.
Renseignements recueillis dans le cadre d’ententes de partenariat
- Comme il a déjà été mentionné au paragraphe 51, OpenAI a aussi recueilli des renseignements par l’intermédiaire d’ententes de partenariat conclues avec des fournisseurs de contenu (c’est-à-dire des sources tierces autorisées).
- Plus précisément, la preuve montre qu’OpenAI a recueilli des données d’entraînement auprès notamment de divers médias, d’un important fournisseur d’images d’archives et d’autres sources de connaissances spécialisées.
- Dans ce contexte, OpenAI a précisé qu’elle s’assurait dans le cadre de ses contrats d’échange de données avec des tiers qu’un avis approprié a été fourni et qu’un consentement a été obtenu, s’il y a lieu.
- Par contre, selon les observations et la copie de l’entente de partenariat obtenue, force est de constater que les clauses contractuelles utilisées par OpenAI ont évolué et ont été précisées avec le temps.
- [texte caviardé]
- Concernant les ententes actuelles qu’elle conclut avec des tiers fournisseurs de données, OpenAI précise que lorsqu’elle établit avec des tiers des ententes visant l’échange de données, elle spécifie dans ses ententes qu’elle ne cherche pas à obtenir des ensembles de données qui contiennent des renseignements personnels sensibles ou des renseignements qui appartiennent à des tiers.
- [texte caviardé]
- Finalement, OpenAI précise appliquer aux ensembles de données obtenus de ses partenaires les mesures d’atténuation présentées dans le tableau que l’on retrouve à l’annexe A du présent rapport.
- Comme il a déjà été mentionné dans le cadre de l’analyse de l’exception relative au matériel journalistique, généalogique et historique, la CAI estime que certains des renseignements recueillis auprès de ces partenaires pourraient être qualifiés de matériel journalistique, généalogique ou historique et ainsi être exclus de la portée de la LPRPSP du Québec.
- Toutefois, comme il a été expliqué, cette analyse doit être effectuée d’une certaine manière et, considérant le fait que les différents partenaires n’ont pas été identifiés précisément et que les sources des renseignements que ces derniers détiennent et communiquent ne sont pas connues, cette exclusion ne peut être invoquée de manière générale.
- Outre l’application possible de cette exception, en ce qui concerne les renseignements personnels recueillis dans le cadre d’ententes de partenariats, si l’on prend en considération les précisions apportées avec le temps à ces ententes, la CAI estime que les mesures contractuelles actuellement prises par OpenAI et les vérifications que la société dit mener relativement à la validité du consentement peuvent être considérées comme raisonnables dans les circonstances et encourage OpenAI à mettre de l’avant toute autre mesure qui aurait pour effet d’assurer davantage le respect de la LPRPSP du Québec, notamment les vérifications recommandées dans la section ci-dessus.
- En conclusion, la CAI considère, à moins de preuve du contraire, que les pratiques contractuelles actuelles d’OpenAI relativement aux renseignements personnels recueillis par l’intermédiaire d’ententes de partenariat visant l’échange de données sont conformes aux règles relatives à l’obligation d’information ainsi qu’au consentement prévues par la LPRPSP du Québec et adopte la recommandation faite par les autres Commissariats au paragraphe 159.
Enjeu 2B : OpenAI a-t-elle obtenu un consentement valide et a-t-elle respecté son obligation d’informer les utilisateurs de la collecte et de l’utilisation des renseignements personnels figurant dans leurs interactions avec ChatGPT?
Analyse au titre de la LPRPDE, de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Comme nous l’avons expliqué précédemment, OpenAI recueille et utilise un sous-ensemble d’interactions des utilisateurs avec ChatGPT pour affiner ses modèles.
- Pour les raisons présentées un peu plus loin, nous n’acceptons pas l’affirmation d’OpenAI selon laquelle elle pourrait se fier au consentement implicite pour la collecte, l’utilisation et la communication des renseignements personnels figurant dans les interactions de ses utilisateurs aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4. Elle aurait dû obtenir un consentement exprès pour cette pratique, qui concernait des renseignements sensibles ou à laquelle les utilisateurs ne pouvaient pas raisonnablement s’attendre.
- OpenAI a indiqué que le consentement pour la collecte et le traitement des renseignements personnels figurant dans les interactions des utilisateurs avec ChatGPT est fondé sur les actions positives des utilisateurs – c’est-à-dire la fourniture volontaire de renseignements personnels à OpenAI. La position de l’entreprise est que, compte tenu du contexte dans lequel les renseignements sont recueillis ainsi que des explications détaillées fournies dans la politique de confidentialité, les conditions d’utilisation, les avis contextuels et les autres ressources (comme le centre d’aide) informant les utilisateurs des fins pour lesquelles leurs renseignements seront utilisés, ce consentement était suffisamment éclairé.
- Plus précisément, OpenAI a indiqué qu’elle fournit l’avis suivant aux utilisateurs lors de l’étape de création d’un compte : « Ne partagez pas de renseignements sensibles. Les clavardages peuvent être vérifiés et utilisés pour perfectionner nos modèles. – En savoir plus ». En cliquant sur « En savoir plus », les utilisateurs peuvent consulter un article détaillé du centre d’aide intitulé « Comment vos données sont utilisées pour améliorer la performance des modèles » (voir figure 2).
Figure 2. Exemple d’avis concernant la communication de renseignements de nature sensible (navigateur) Version textuelle de la figure 2
Figure 2. Exemple d’avis concernant la communication de renseignements de nature sensible (navigateur)
[En envoyant un message à ChatGPT, vous confirmez que vous acceptez nos conditions d’utilisation et que vous avez lu notre politique de confidentialité. Ne partagez pas d’information sensible. Les clavardages peuvent être vérifiés et utilisés pour perfectionner nos modèles. En savoir plus]
By messaging ChatGPT, you agree to our Terms and have read our Privacy Policy. Don’t share sensitive info. Chats may be reviewed and used to train our models. Learn more
[Envoyez un message ChatGPT]
Message ChatGPT
[ChatGPT peut faire des erreurs. Pensez à vérifier les informations importantes.]
ChatGPT can make mistakes. Check important info.
- Les essais internes de ChatGPT menés par le CPVP au cours de l’enquête ont confirmé que cet avis n’est affiché qu’une seule fois lorsqu’un utilisateur crée un compteNote de bas de page 157. En ce qui concerne la version gratuite en ligne de ChatGPT, qui a été rendue accessible aux utilisateurs sans compte en avril 2024, nos essais ont révélé que l’avis n’est affiché qu’une seule fois, seulement après que l’utilisateur a pour la première fois entré une invite et reçu une réponse.
- Comme nous l’avons expliqué dans la section précédente, la forme de consentement requise dépend de la sensibilité des renseignements en question et des attentes raisonnables de l’individu.
Nature sensible
- Nous constatons que l’avis d’OpenAI, qui n’est fourni qu’une seule fois, n’est pas suffisant pour veiller à ce que des données sensibles ne soient pas incluses dans les données tirées des interactions des utilisateurs auxquelles la société a recours pour l’entraînement des modèles. Si l’avis est affiché après que l’utilisateur a déjà entré sa première invite (c’est-à-dire dans la version gratuite offerte sans compte) ou si un autre utilisateur, qui n’a pas vu l’avis initial, utilise le service, l’avis est particulièrement inadéquat.
- Comme il a été mentionné précédemment, OpenAI a expliqué qu’elle a mis en œuvre des mesures d’atténuation des risques pour réduire la présence de renseignements personnels, notamment ceux de nature sensible, dans ses ensembles de données destinés à l’entraînement et les résultats de ses modèles. En ce qui concerne les interactions des utilisateurs pouvant être incluses dans les données destinées à l’affinage de GPT-3.5 et GPT-4, OpenAI a confirmé qu’elle :
- a utilisé uniquement un sous-ensemble d’interactions des utilisateurs pour l’entraînement des modèles (affinage);
- a supprimé le lien qui existe entre les interactions et le compte de l’utilisateur;
- a utilisé l’outil de filtrage d’un tiers pour repérer et supprimer certains renseignements d’identification personnelle dans les interactions;
- a demandé aux employés et aux fournisseurs qui examinent le sous-ensemble d’interactions pouvant être utilisées à des fins d’affinage d’exclure tout contenu pouvant comporter des renseignements personnels.
- Nous reconnaissons que les mesures ci-dessus aient pu limiter la mesure dans laquelle certains types de renseignements personnels ont été inclus dans les ensembles de données utilisés pour affiner GPT-3.5 et GPT-4. De plus, étant donné que le lien entre les interactions et les comptes des utilisateurs ont été supprimés, le risque de conclusions qui pourraient être faites au sujet de chaque utilisateur était probablement limité.
- Cependant, nous sommes d’avis qu’au moment pertinent ces mesures d’atténuation ne couvraient pas la vaste gamme de renseignements personnels recueillis qui sont visés par les Lois, et que certains des autres renseignements personnels pourraient avoir été, dans certains cas, de nature sensibleNote de bas de page 158. Bien que l’utilisation de l’outil de filtrage du tiers ait été destinée à filtrer certains renseignements d’identification personnelle, elle ne supprimait pas tous les types de renseignements personnels, comme ceux liés aux opinions ou aux caractéristiques d’un individu, y compris ceux qui peuvent concerner un autre individu identifiable, ce qui peut inclure ou révéler des renseignements personnels sensibles (par exemple, l’origine ethnique, l’orientation sexuelle, l’état de santé).
Attentes raisonnables
- Nous constatons aussi que la collecte et l’utilisation par OpenAI des renseignements tirés des interactions des utilisateurs avec ChatGPT dans le but d’entraîner ses modèles GPT-3.5 et GPT-4 ne respectaient pas le critère d’attentes raisonnables des individus ou de ce qui aurait été évident pour une personne raisonnableNote de bas de page 159.
- OpenAI a fait valoir que, depuis le lancement initial de ChatGPT, la société a constamment fait preuve de transparence envers les utilisateurs quant à la façon dont leurs données sont utilisées pour améliorer ses modèles. Par exemple, au moment de la création d’un compte ou lorsque les utilisateurs ouvrent l’application mobile ChatGPT pour la première fois, ils voient la mention « Les conversations peuvent être examinées par nos formateurs en IA pour améliorer nos [systèmes et nos services] » ou pour « entraîner nos modèlesNote de bas de page 160 ». OpenAI a également indiqué qu’elle informe les utilisateurs de cette pratique dans sa politique de confidentialité et dans les articles du centre d’aide. Enfin, OpenAI a mentionné que tous les utilisateurs, autres que les utilisateurs qui n’ont pas ouvert de session et accèdent à ChatGPT au moyen d’un navigateur Web, doivent cliquer sur le bouton « OK, c’est parti » (dans la version du navigateur Web) ou sur le bouton « Continuer » (dans la version de l’application mobile) après avoir vu l’avis dont il est question ci-dessus.
- Nous estimons que, lorsque ChatGPT a été lancé, de nombreux utilisateurs n’étaient probablement pas au courant ou n’avaient pas une bonne compréhension de base de l’incidence de l’utilisation de leurs renseignements personnels pour entraîner les modèles d’OpenAI, notamment de l’examen potentiel de leurs conversations par les personnes chargées de l’entraînement.
- Dans ce contexte, nous ne croyons pas qu’un avis ponctuel lors de la création du compte ou lors de la première utilisation était suffisant pour s’assurer que les utilisateurs seraient informés de la nature, des fins et des conséquences du traitement de leurs renseignements. Bien que nous reconnaissions qu’il est possible que certains de ces utilisateurs puissent avoir cherché et trouvé des informations supplémentaires sur la pratique dans les conditions d’utilisation, la politique de confidentialité et les articles du centre d’aide d’OpenAI, ce ne sont pas tous les utilisateurs qui auraient pris le temps de lire ces communications sur la protection de la vie privée.
- Par conséquent, nous estimons qu’OpenAI aurait dû obtenir un consentement exprès pour la collecte et l’utilisation des renseignements personnels figurant dans les interactions des utilisateurs avec ChatGPT pour entraîner ses modèles GPT-3.5 et GPT-4.
Choix
- L’utilisation à des fins d’entraînement par OpenAI de données obtenues à partir des interactions des utilisateurs n’est pas essentielle à la prestation de ses services, même si elle est utile à OpenAI. Par conséquent, OpenAI doit offrir à ses utilisateurs le choix de participer ou non à l’entraînement.
- OpenAI a indiqué que ses utilisateurs peuvent retirer leur consentement visant l’utilisation de leur contenu pour améliorer la performance du modèle, soit par l’intermédiaire de leurs paramètres de compte (cette option est offerte depuis avril 2023), soit en soumettant une demande de protection des renseignements personnels à OpenAINote de bas de page 161.
- En réponse à nos questions, la partie intimée a également fait valoir qu’en octobre 2023 (près d’un an après le lancement de ChatGPT), seul un nombre négligeable d’utilisateurs au Canada avaient choisi de retirer leur consentement pour que les données tirées de leurs interactions soient utilisées à des fins d’entraînement.
- Ce nombre pourrait ne pas correspondre au nombre de personnes qui auraient préféré qu’OpenAI n’utilise pas les données tirées de leurs interactions pour l’entraînement de ses modèles. Voici des explications à cet effet :
- Premièrement, comme il a été mentionné précédemment, nous sommes d’avis qu’il est peu probable que les personnes qui ne s’attendaient pas raisonnablement à cette pratique et qui n’en étaient pas non plus au courant savaient qu’une option de retrait du consentement était offerte, ce qui la rendait peu accessible et utile.
- Deuxièmement, jusqu’au mois d’avril 2024, les utilisateurs qui souhaitaient retirer leur consentement dans les paramètres de leur compte pour que les données tirées de leurs interactions soient utilisées à des fins d’entraînement devaient aussi renoncer à leur historique de clavardage. Il s’agit d’un exemple de modèle de conception trompeuse visant une action forcée; l’utilisateur doit sans raison accepter l’utilisation par OpenAI de ses renseignements pour entraîner ses modèles afin de maintenir l’accès à son historique de clavardageNote de bas de page 162. Bien que les utilisateurs aient toujours eu la possibilité de communiquer avec l’équipe d’OpenAI chargée de la protection des renseignements personnels ou d’utiliser le formulaire en ligne, cette renonciation a peut-être dissuadé certains utilisateurs de retirer leur consentement, ce qui a rendu l’option peu accessible. Nos essais ont montré qu’au cours de l’enquête, OpenAI a modifié les options de paramètres de compte offertes à ses utilisateurs. Ceux-ci ont maintenant la possibilité de retirer leur consentement pour que leurs interactions soient utilisées à des fins d’entraînement, et ce, sans avoir à désactiver leur historique de clavardage. OpenAI a aussi ajouté une fonction qui permet aux utilisateurs d’avoir des conversations temporaires, qui ne servent pas à l’entraînement des modèlesNote de bas de page 163. Ces changements tiennent compte de notre inquiétude quant au fait que la conception des paramètres pourrait avoir découragé les utilisateurs de retirer leur consentement lié à l’entraînement par peur de perdre leur historique de clavardage.
- Finalement, nous notons que, jusqu’à récemment, l’option de retrait du consentement n’était pas systématiquement offerte aux personnes qui utilisaient la version gratuite en ligne de ChatGPT (c’est-à-dire la version qui peut être utilisée sans compte) sur leur téléphone cellulaire. Par conséquent, les utilisateurs de cette version ne pouvaient pas toujours retirer leur consentement dans leurs paramètres s’ils souhaitaient que leurs interactions ne soient pas utilisées pour l’entraînement, même si c’était leur préférence. OpenAI a déclaré que l’option de retirer son contentement pour l’entraînement lors de l’utilisation de la version gratuite offerte sans compte de ChatGPT a été offerte au même moment que la possibilité d’utiliser ChatGPT sans compte à partir du Web, de l’application iOS et de l’application Android entre avril et juin 2024. Cependant, OpenAI a également précisé qu’il y avait eu une période où l’option n’apparaissait pas dans les paramètres des utilisateurs n’ayant pas de compte avec la version du site Web pour téléphone mobile. OpenAI a confirmé que ce problème avait été corrigé le 4 novembre 2025.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Compte tenu des éléments mentionnés ci-dessus, nous estimons qu’OpenAI devait obtenir un consentement exprès pour la collecte et l’utilisation des renseignements personnels figurant dans les interactions des utilisateurs avec ChatGPT aux fins de l’entraînement de ses modèles GPT-3.5 et GPT-4. En effet, il est possible que cette collecte et cette utilisation aient touché des renseignements personnels sensibles ou qu’elles ne répondaient pas aux attentes raisonnables des utilisateurs.
- Par conséquent, le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique jugent qu’OpenAI n’a pas obtenu un consentement valide pour cette pratique; elle contrevient donc à l’article 6.1 de la LPRPDE et à l’article 4.3 du troisième principe figurant à l’annexe 1 de la LPRPDE, aux articles 7 et 8 de la PIPA de l’Alberta, et aux articles 6 à 8 de la PIPA de la Colombie-Britannique.
Développements récents et conclusions au titre de la LPRPDE
- En réponse à notre rapport préliminaire, OpenAI a informé les Commissariats qu’elle avait développé un nouvel outil qui peut détecter et caviarder d’autres renseignements d’identification personnelle dans les données de conversation pour lesquelles le lien qui existe entre les interactions et le compte de l’utilisateur a été supprimé, soit des données que l’outil de filtrage du tiers (utilisé précédemment) ne pouvait pas détecterNote de bas de page 164. OpenAI a fourni aux Commissariats les résultats de récentes évaluations internes démontrant l’efficacité de l’outil pour détecter les renseignements personnels ou sensibles.
- Le CPVP croit que ce nouvel outil et les autres mesures d’atténuation qu’OpenAI a mises en œuvre aux différentes étapes du développement et du déploiement de ChatGPT (décrites en détail dans diverses sections du présent rapport et énumérées à l’annexe A) peuvent réduire considérablement le risque que des renseignements personnels de particuliers et, plus particulièrement, des renseignements sensibles, puissent dorénavant se retrouver dans les ensembles de données utilisés pour affiner les modèles d’IA d’OpenAI ou être communiqués dans les résultats produits par les modèles. Pour en arriver à cette constatation, le CPVP, comme il est mentionné dans d’autres sections du présent rapportNote de bas de page 165, a également tenu compte des autres engagements d’OpenAI en matière de transparence (notamment la publication et la promotion d’un billet de blogue canadien présentant ses pratiques en matière de protection de la vie privée) et de la décision de la société d’abandonner GPT-3.5 et GPT-4 et d’entraîner pleinement les modèles actuels qui alimentent ChatGPT en appliquant les nouvelles mesures d’atténuation.
- Nous reconnaissons également que l’utilisation de l’IA générative par les individus a considérablement augmenté depuis le lancement de notre enquête. Il est maintenant plus probable que les utilisateurs de ces services aient acquis une compréhension de base concernant l’entraînement des modèles d’IA. Compte tenu de ce contexte, et de la mise en œuvre par OpenAI des mesures d’atténuation existantes et nouvelles qui devrait, selon nous, réduire de façon importante le risque de préjudices pour la vie privée, nous acceptons que les utilisateurs puissent raisonnablement s’attendre à ce que les futurs modèles d’OpenAI soient affinés à l’aide d’un sous-ensemble d’interactions des utilisateurs.
- Par conséquent, le CPVP croit qu’OpenAI pourrait compter sur le consentement implicite dans ce contexte et estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
- Cette conclusion est fondée sur les observations d’OpenAI et notre compréhension qu’OpenAI continuera à réellement mettre en œuvre et améliorer ces mesures d’atténuation et à développer d’autres techniques novatrices de protection de la vie privée à l’avenir.
Conclusions au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta trouvent encourageantes les mesures qu’a prises OpenAI, mais ne rendent pas de conclusions sur ces développements récents, car la question fondamentale (décrite dans l’analyse de l’enjeu 2A) n’est toujours pas réglée en ce qui concerne les renseignements accessibles au public, lesquels constituent la source principale des données d’entraînement des modèles.
Analyse au titre de la LPRPSP du Québec
- Comme il en a été question précédemment aux paragraphes 231 à 237 sous le titre « Règles relatives à l’obligation d’information qui s’appliquent dans le cadre d’une utilisation des renseignements personnels à des fins primaires », les règles relatives au consentement prévues par la LPRPSP du Québec diffèrent de celles prévues par la LPRPDE, la PIPA de la Colombie-Britannique et la PIPA de l’Alberta. Lorsque les renseignements personnels sont recueillis directement auprès de la personne concernée, comme dans le cas de la collecte du contenu des clavardages des utilisateurs aux fins de l’entraînement des modèles GPT-3.5 et GPT-4, la société est assujettie à une obligation d’information.
- Cette obligation d’information signifie que la société doit informer la personne, en des termes simples et clairs, des fins auxquelles les renseignements sont recueillis, des moyens par lesquels ces derniers sont recueillis, des droits de rectification prévus par la Loi et du droit de retirer le consentement à la communication ou à l’utilisation des renseignements recueillisNote de bas de page 166.
- Dans le cadre du rapport préliminaire, la CAI s’était positionnée à savoir que l’avis communiqué aux utilisateurs lors de la création d’un compte ou pour la version en ligne et gratuite, communiqué après que les utilisateurs aient pour la première fois entré une invite (voir capture d’écran au paragraphe 290), était insuffisant afin d’informer les utilisateurs que les renseignements contenus dans leur clavardage avec les modèles GPT-3.5 et GPT-4 pouvaient être recueillis aux fins de l’entraînement de ces modèles.
- À la suite des observations soumises par OpenAI, la CAI prend acte du fait qu’une fenêtre de notification additionnelle prévenant les utilisateurs de ne pas communiquer de renseignements sensibles et les informant que leur historique de clavardage pouvait être examiné ou utilisé afin de perfectionner les services était présentée aux utilisateurs lors de la création d’un compte sur l’interface Web du système, ou lors de la première ouverture de l’application après son téléchargement et aussi après la création d’un compte sur l’application.
- De plus, la CAI constate que cette fenêtre de notification comportait un lien vers des articles du centre d’aide qui informaient notamment les utilisateurs du fait que le contenu de leurs clavardages était utilisé par défaut afin d’entraîner le modèle et que ce contenu pouvait être examiné par du personnel autorisé à des fins précisées dans ces articles.
- Considérant ces informations supplémentaires communiquées aux utilisateurs et le fait que les conditions d’utilisation ainsi que la politique de confidentialité d’OpenAI informaient en des termes simples et clairs les utilisateurs que leurs interactions avec les modèles GPT-3.5 et GPT-4 pouvaient être examinées aux fins d’amélioration des services et être utilisées aux fins de l’entraînement de ces modèles, la CAI accepte de revoir sa position préliminaire relativement à l’information transmise aux utilisateurs et à la qualité du consentement lié à l’utilisation de leur clavardage aux fins de l’entraînement des modèles. Ainsi, la CAI conclut que les mesures d’information mises en place pour les utilisateurs disposant d’un compte ou ayant téléchargés l’application étaient suffisantes et que, par conséquent, le consentement obtenu de ces utilisateurs était conforme à la LPRPSP du Québec.
- Par contre, la CAI conserve sa position selon laquelle l’information transmise aux utilisateurs de la version en ligne et gratuite de ChatGPT n’était pas conforme, car l’avis relatif à l’utilisation de données tirées du clavardage aux fins de l’entraînement du modèle n’était donné aux utilisateurs qu’après une première collecte de renseignements, ce qui pouvait inclure des renseignements personnelsNote de bas de page 167.
- La CAI estime que la mention en bas de page indiquant qu’en envoyant un message à ChatGPT les utilisateurs acceptent les conditions d’utilisation et reconnaissent avoir lu la politique de confidentialité, et le fait de consulter les hyperliens faisant référence aux documents n’étaient pas insuffisants en l’espèce pour informer en temps opportun les personnes des fins pour lesquelles leurs renseignements personnels étaient recueillis, et ce, dans le respect de la Loi.
- À cet effet, la CAI conclut que les pratiques d’OpenAI relative à la version Web gratuite de GPT-3.5 et GPT-4 concernant la collecte des renseignements tirés des clavardages des utilisateurs aux fins de l’entraînement des modèles n’étaient pas conformes à l’article 8 de la LPRPSP du Québec.
- Il est à noter que, le 24 mars 2026, OpenAI a indiqué à la CAI qu’elle s’engageait à mettre à jour la version en ligne sans compte et gratuite de ChatGPT afin que l’avis informant les utilisateurs de la collecte des renseignements tirés de leurs clavardages aux fins de l’entraînement du modèle et l’avis à l’effet de ne pas communiquer de renseignements de nature sensible apparaisse avant le premier clavardage avec le système.
- En fin de compte, et comme il sera expliqué en détail dans ce qui suit, malgré l’information transmise aux utilisateurs concernant la collecte et l’utilisation des renseignements tirés de leurs clavardages par défaut afin d’entraîner les modèles, l’article 9.1 de la LPRPSP du Québec prévoit une obligation propre aux paramètres de confidentialité et la CAI estime que les pratiques d’OpenAI en l’espèce ont contrevenu à cet article.
Question des paramètres assurant le plus haut niveau de confidentialité par défaut conformément à l’article 9.1 de la LPRPSP du Québec
- L’article 9.1 de la LPRPSP du Québec prévoit qu’une entreprise qui recueille des renseignements personnels en offrant au public un service technologique disposant de paramètres de confidentialité doit s’assurer que, par défaut, ces paramètres assurent le plus haut niveau de confidentialité, sans aucune intervention de la personne concernée.
- Selon les observations d’OpenAI, lorsque le service ChatGPT a été rendu accessible au public en novembre 2022, les utilisateurs pouvaient communiquer avec le service de soutien d’OpenAI afin de retirer leur consentement visant la collecte des renseignements tirés de leurs conversations aux fins de l’entraînement des modèles.
- En février 2023, un formulaire en ligne a été rendu disponible pour permettre aux utilisateurs de retirer leur consentement visant cette collecte.
- Puis, en avril 2023, OpenAI a lancé une fonction à même l’interface des paramètres de contrôle des données afin de permettre aux utilisateurs de désactiver leur historique de clavardage de sorte que leurs nouvelles conversations ne puissent être utilisées aux fins de l’entraînement des modèles.
- En octobre 2023, OpenAI a transféré son formulaire en ligne sur son nouveau portail, privacy.openai.com.
- En avril 2024, OpenAI a modifié l’interface de contrôle des données afin de permettre aux utilisateurs de retirer leur consentement visant la collecte des renseignements tirés de leurs conversations aux fins de l’entraînement des modèles, et ce, sans que ces derniers ne perdent leurs historiques de conversations.
- Durant cette même période, OpenAI a lancé un mode de conversation temporaire pour lequel les renseignements tirés des interactions des utilisateurs ne sont pas recueillis aux fins de l’entraînement des modèles. Finalement, OpenAI a permis aux utilisateurs qui n’avaient pas de compte de retirer leur consentement visant la collecte des renseignements tirés de leurs clavardages aux fins de l’entraînement des modèles.
- En fin de compte, peu importe la période concernée, les paramètres de confidentialité du système faisaient en sorte que l’option qui permet la collecte des renseignements tirés des clavardages des utilisateurs aux fins de l’amélioration de l’entraînement des modèles était activée par défaut et que l’utilisateur devait poser un geste concret afin de se désinscrire de cette collecte.
- Or, l’article 9.1 de la LPRPSP du Québec, entré en vigueur le 22 septembre 2023, prévoit que les paramètres de confidentialité assurant le plus haut niveau de confidentialité doivent être activés sans aucune intervention de la personne concernée.
- OpenAI affirme dans ses commentaires que l’article 9.1 de la LPRPSP du Québec n’est pas applicable en l’espèce.
- Elle soutient d’abord que l’utilisation des données tirées des interactions des utilisateurs aux fins de l’entraînement de ses modèles est une fin dite « secondaire » et que cette utilisation peut être visée par les exceptions aux règles du consentement prévues par les premier et cinquième paragraphes du deuxième alinéa de l’article 12 de la LPRPSP du Québec, soit l’exception relative à des fins compatibles avec celles pour lesquelles la collecte a été effectuée ou l’exception relative à l’utilisation nécessaire à des fins d’étude, de recherche ou de production de statistiques, lorsqu’un tel renseignement est dépersonnalisé.
- OpenAI soutient ensuite que ses utilisateurs prennent des mesures claires et concrètes pour activer les paramètres de collecte des renseignements tirés de leurs conversations en cliquant sur « Continuer » lors du processus d’intégration et en acceptant la politique de confidentialité et les conditions d’utilisation de ChatGPT.
- OpenAI soutient que les termes « services technologiques », « paramètres de confidentialité » et « niveau de confidentialité le plus élevé par défaut » créent une ambiguïté réelle, de telle sorte qu’il est nécessaire de se référer aux valeurs qui sous-tendent la Charte afin de concilier les objectifs de la Loi avec les protections accordées aux autres droits fondamentaux, dont la liberté d’expression.
- En se référant à l’analyse d’impact réglementaire produite le 30 juillet 2020 par le Secrétariat à l’accès à l’information et à la réforme des institutions démocratiquesNote de bas de page 168 dans le cadre de la modernisation de la LPRPSP du Québec, OpenAI soutient que la notion de paramètres de confidentialité réfère davantage aux paramètres relatifs à la communication de l’information. Elle indique que cette interprétation respecte le sens courant du terme « confidentiality », qui concernerait le fait de restreindre l’accès et la communication à des personnes non autorisées, un terme contrastant avec le terme « privacy », qui, dans son sens large, pourrait inclure comment les renseignements sont utilisés au sein de la sociétéNote de bas de page 169.
- À cet effet, OpenAI fait valoir que l’objectif qui sous-tend l’article 9.1 n’est pas de réguler l’utilisation qui est faite des renseignements au sein de l’entreprise et que la fonction « améliorer le modèle » n’est pas un paramètre de confidentialité, puisque ce paramètre concerne l’utilisation faite des renseignements tirés des clavardages au sein même de l’entreprise et non le fait de communiquer ou de rendre ces renseignements disponibles à des tiers.
- Comme il sera décrit dans ce qui suit, la CAI n’est pas d’accord avec les arguments soulevés par OpenAI et estime que l’article 9.1 de la LPRPSP du Québec s’applique en l’espèce pour les raisons suivantes.
- Cet article vise à fournir aux utilisateurs de services ou de produits technologiques une protection accrue afin que leurs renseignements personnels puissent être protégés par défaut, et ce, à même les paramètres initiaux des systèmes.
- Cette protection, qui relève du principe de la « protection de la vie privée dès la conception »Note de bas de page 170, vise à éviter que les utilisateurs aient eux-mêmes à paramétrer les systèmes afin d’assurer la protection de leurs renseignements personnels.
- La CAI estime que cette protection s’applique à l’ensemble du cycle de vie d’un renseignement personnel, ce qui inclut la collecte, l’utilisation, la communication et la conservation de ce dernier.
- La mise en corrélation du texte de cette disposition avec le contexte de la Loi et les indices relatifs aux intentions du législateur est révélatrice quant au fait que les paramètres qui ont trait à l’entraînement des modèles d’IA sont inclus dans la portée de cet article.
- D’abord, pour être assujettie à l’article 9.1 de la LPRPSP du Québec, l’entreprise doit recueillir des renseignements personnels :
- au moyen d’un produit ou d’un service technologique;
- le produit ou service doit être offert au public;
- le produit ou service doit comporter des paramètres de confidentialité.
- Bien que non définis dans la LPRPSP du Québec, les termes « produits ou services technologiques » ont été définis par le législateur dans le cadre de l’article 3 de la Loi sur les renseignements de santé et de services sociauxNote de bas de page 171 et, outre le contexte particulier relatif au domaine de la santé de cette loi, cette définition peut facilement s’appliquer dans le contexte de l’article 9.1 de la LPRPSP du Québec. Voici la définition en question :
« produit ou service technologique » : un équipement, une application ou un service requis afin de recueillir, de conserver, d’utiliser ou de communiquer un renseignement, tels une banque ou un système d’information, un réseau de télécommunication, une infrastructure technologique, un logiciel ou une composante informatique d’un équipement médical
- À cet effet, toute application, ce qui inclut tout service Web, qui recueille, conserve, utilise ou communique un renseignement personnel est un service technologique au sens de la LoiNote de bas de page 172.
- Ainsi, il va sans dire qu’OpenAI, par l’entremise des services ChatGPT qu’elle fournissait au moyen des modèles GPT-3.5 et GPT-4, offrait au public des services technologiques.
- Comme le démontre l’image ci-dessous, les interfaces de ces modèles comportaient des paramètres de confidentialité relatifs à l’utilisation des renseignements tirés du clavardage des utilisateurs aux fins de l’entraînement de ces modèles.
Figure 3. Mécanisme de désactivation pour les utilisateurs déconnectés Version textuelle de la figure 3
Figure 3. Mécanisme de désactivation pour les utilisateurs déconnectés
La figure 3 montre le mécanisme de retrait du consentement pour les utilisateurs déconnectés qui indique : « Améliorez le modèle pour tout le monde » avec le bouton activé par défaut. Avec le message suivant: Autorisez l’utilisation de votre contenu afin d’entraîner nos modèles et améliorer ChatGPT pour vous et tous les utilisateurs. Nous veillons à protéger la confidentialité de vos données. En savoir plus
- À cet effet, après le 22 septembre 2023, l’article 9.1 de la LPRPSP du Québec s’appliquait à ces paramètres.
- Ces paramètres devaient donc être configurés de sorte à assurer le plus haut niveau de confidentialité.
- Les systèmes de ChatGPT reposant sur les modèles GPT-3.5 et GPT-4 comportaient deux niveaux de paramètres et, selon le niveau choisi, soit la collecte des renseignements tirés des clavardages était permise, soit elle ne l’était pas.
- Dans ce contexte, le plus haut niveau de confidentialité était le niveau selon lequel la collecte des renseignements tirés des clavardages n’était pas permise.
- Dans les faits, le choix qui était proposé par OpenAI aux utilisateurs de ChatGPT allait à l’encontre de ce qui est prévu par l’article 9.1; ces derniers devaient donc poser un geste concret afin de désactiver la collecte des renseignements tirés de leurs clavardages aux fins de l’entraînement des modèles.
- En ce qui a trait à l’argument soulevé par OpenAI concernant le fait que l’utilisation des renseignements tirés du clavardage des utilisateurs aux fins de l’entraînement de ses modèles relèverait d’une fin dite « secondaire » et que cette utilisation pourrait être visée par les exceptions aux règles du consentement prévues par les premier et cinquième paragraphes de l’article 12 de la LPRPSP du Québec, la CAI estime que l’article 9.1 s’applique à l’étape de la collecte des renseignements personnels et que cette étape est distincte de celle à laquelle les fins dites « secondaires » que l’on retrouve à l’article 12 de la LPRPSP s’appliquent.
- Par conséquent, l’application des exceptions relatives au consentement prévues par l’article 12 de la LPRPSP du Québec ne peuvent avoir d’incidence sur l’application de l’article 9.1 de la Loi.
- De plus, la CAI considère que l’interprétation d’OpenAI concernant l’application de l’article 12 de la LPRPSP du Québec irait à l’encontre de la volonté même du législateur d’avoir une approche plus protectrice dans le contexte des produits ou services technologiques.
- Cette interprétation aurait pour effet qu’une utilisation d’un renseignement personnel à une fin dite « secondaire » faite au titre de l’article 12 de la LPRPSP du Québec pourrait être soumise à des conditions moins contraignantes du point de vue de la confidentialité que ne le serait une utilisation à une fin dite « primaire ».
- Par rapport au second argument soulevé, la CAI estime que le fait d’interpréter que l’acceptation des politiques de confidentialité et d’utilisation des services technologiques par les utilisateurs constitue un geste concret conforme à l’article 9.1 va aussi à l’encontre de la protection supplémentaire souhaitée par le législateur lorsqu’il est question de produits ou de services technologiques. Cette interprétation prônée par OpenAI aurait pour effet de placer l’utilisateur devant le choix d’utiliser ou non le service ou le produit plutôt que devant le choix souhaité par le législateur, soit celui de permettre ou non des paramètres de confidentialité plus intrusifs du point de vue de la vie privée.
- De plus, la CAI ne partage pas la position avancée par OpenAI selon laquelle les termes utilisés à l’article 9.1 de la LPRPSP du Québec créent une ambiguïté réelleNote de bas de page 173 et constate que cette ambiguïté résulte davantage de l’interprétation que propose OpenAI.
- Lorsqu’il est question des « paramètres de confidentialité », le sens courant de ce terme ne se limite pas uniquement au contrôle de l’accès aux renseignements et de leur communication, mais inclut normalement le contrôle de la collecte des renseignements, de leur utilisation et des fins pour lesquelles ils sont recueillis.
- Lorsqu’il est question du concept du plus haut niveau de confidentialité, l’utilisateur d’un service technologique s’attend non seulement à ce que ses renseignements ne soient pas rendus accessibles et communiqués à des tiers non autorisés, mais aussi à ce que ses renseignements ne soient utilisés qu’aux seules fins pour lesquelles ils ont été recueillis et à ce que cette utilisation soit limitée à même les paramètres du système qu’il utilise.
- Même si l’interprétation littérale du terme « paramètres de confidentialité » se limitait à la notion de l’accès aux renseignements et de leur communication, le contexte législatif dans lequel ce terme est utilisé et les intentions du législateur quant à l’objectif de l’article 9.1 nous indiquent que la portée de cet article va au-delà de ces deux seuls aspects.
- Dans le présent contexte, il faut prendre en considération le fait que cette disposition s’inscrit dans une législation qui vise la protection du public et qui se doit d’être interprétée de manière large et libéraleNote de bas de page 174.
- Le mémoire de la ministre Lebel adressé au conseil des ministres lors du dépôt du projet de loi 64, qui reprend l’analyse d’impact réglementaire du Secrétariat à la réforme des institutions démocratiques, à l’accès à l’information et à la laïcité à laquelle fait référence OpenAI dans le cadre de ses commentaires, fait la lumière sur les termes employés à l’article 9.1 et les intentions du législateur, notamment ce passage :
4.2.5. Protection de la vie privée par défaut (Privacy by default)
Le principe de « privacy by default » ou de « protection par défaut » implique que les données à caractère personnel soient automatiquement protégées sans qu’aucune action supplémentaire ne soit requise de la part d’un particulier.
Autrement dit, ces mesures garantissent que, par défaut, les renseignements personnels ne sont pas rendus accessibles à un nombre indéterminé de personnes physiques ou morales sans l’intervention de la personne physique concernée.
Ainsi, lorsqu’un produit ou un service (application, média social, objet connecté) offre des paramètres de confidentialité (communication des données principalement), ces paramètres doivent au départ assurer le plus au niveau de confidentialité. Par la suite, la modification de ces paramètres doit nécessiter une intervention de la personne concernée. Pour inscrire ce principe dans la Loi sur le secteur privé, il est proposé d’ajouter une disposition qui exige que les paramètres des produits ou des services offerts assurent le plus haut niveau de confidentialité sans aucune intervention de la personne concernéeNote de bas de page 175.
- L’article 9.1, comme le soulignent la ministre Lebel dans son mémoire ainsi que le Secrétariat à la réforme des institutions démocratiques, à l’accès à l’information et à la laïcité dans son analyse d’impact réglementaireNote de bas de page 176, s’inscrit sous le principe de protection par défaut qui est un corollaire du principe de protection de la vie privée dès la conception.
- Le concept de vie privée par défaut est défini de la sorte par madame Ann Cavoukian :
[Traduction]
Nous pouvons tous être certains d’une chose — le « par défaut » fait la loi! Le concept de protection de la vie privée dès la conception cherche à assurer le plus haut niveau de confidentialité en faisant en sorte que les renseignements personnels soient automatiquement protégés dans tout système technologique ou toute pratique organisationnelle. Si une personne ne fait rien, sa vie privée reste tout de même intacte. Aucune action n’est requise de sa part pour protéger sa vie privée – la protection est intégrée au système, par défautNote de bas de page 177.
[caractères gras ajoutés]
- Or, contrairement à ce que soutient OpenAI, la protection que vise cette philosophie de conception par défaut va bien au-delà du fait de contrôler l’accès aux renseignements et leur communication.
- Cette notion de confidentialité par défaut vise la protection de la vie privée dans son sens large, ce qui inclut la collecte, l’utilisation, la communication et la conservation des renseignements personnels. La référence que font la ministre Lebel ainsi que le Secrétariat à la réforme des institutions démocratiques, à l’accès à l’information et à la laïcité à ce concept va à l’encontre de la portée restreinte que soutient l’interprétation proposée par OpenAI.
- De même, il est important de noter que le terme « principalement » est employé dans le cadre du mémoire de la ministre et de l’analyse d’impact réglementaire lorsqu’il est fait référence aux paramètres de confidentialité et que la communication des données est citée à titre d’exemple. L’utilisation de ce terme nous indique que la portée de l’article 9.1 de la LPRPSP du Québec ne se limite pas aux seuls paramètres qui contrôlent l’accès aux renseignements et leur communication.
[…] Ainsi, lorsqu’un produit ou un service (application, média social, objet connecté) offre des paramètres de confidentialité (communication des données principalement), ces paramètres doivent au départ assurer le plus au niveau de confidentialitéNote de bas de page 178.[…]
[caractères gras ajoutés]
- Il faut aussi souligner que le terme « paramètres de confidentialité » est traduit dans la version anglaise de cet article par le terme « privacy settings » qui renvoie aussi à la notion de protection de la vie privée en son sens large.
- La CAI conclut donc que l’article 9.1 de la LPRPSP du Québec est une manifestation de l’intention du législateur de soutenir, au moment de la collecte des renseignements personnels, le concept de la protection de la vie privée dès la conception et que la protection offerte par cet article concerne l’ensemble du cycle de vie de ces renseignements et non uniquement les volets qui concernent l’accès à ceux-ci et leur communication.
- Il faut souligner que cette interprétation est aussi partagée par les auteurs de la 3e édition annotée de la LPRPSP du Québec :
L’article 9.1 impose aux entreprises l’obligation de fournir les paramètres les plus élevés en ce qui a trait à la confidentialité de l’information. Ce qui implique, par défaut, la technologie, telle qu’une application, ne doit recueillir ou partager le minimum de renseignements personnels possibles. Par conséquent, les fonctionnalités de profilage ou de localisation doivent être désactivées par défaut, lorsque les technologies les exécutants entrent dans la portée de l’article 9.1Note de bas de page 179.
[caractères gras ajoutés]
- Finalement, contrairement à ce qu’affirme OpenAI, l’utilisation des renseignements tirés du clavardage des utilisateurs des versions de ChatGPT reposant sur les modèles GPT-3.5 et GPT-4 n’était pas limitée à une utilisation dite « interne » comme le décrit OpenAI dans ses arguments. En fait, dans certains cas, l’entraînement des modèles pouvaient mener à la communication de certains renseignements à d’autres utilisateurs et correspondre à la définition plus restrictive que propose OpenAI du terme « paramètres de confidentialité ».
- Pour ces raisons, la CAI conclut que les pratiques d’OpenAI après le 23 septembre 2023 n’étaient pas conformes à l’article 9.1 de la LPRPSP du Québec, car les paramètres de confidentialité des systèmes de ChatGPT reposant sur les modèles GPT-3.5 et GPT-4 n’offraient pas le plus haut niveau de confidentialité.
Enjeu 2C : OpenAI a-t-elle obtenu un consentement valide et a-t-elle respecté son obligation d’informer les individus en ce qui a trait à la communication des renseignements personnels qu’elle recueille et qui proviennent de sites Web accessibles au public, de sources tierces autorisées et d’interactions des utilisateurs avec ChatGPT?
Analyse au titre de la LPRPDE, de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Comme nous l’avons déjà mentionné, les renseignements qui sont accessibles au public ne sont pas des renseignements auxquels le public a accès au sens des Lois. Pour les raisons énoncées plus loin, OpenAI devrait avoir obtenu un consentement exprès, par l’intermédiaire de ChatGPT ou relativement à celui-ci, pour la communication des renseignements personnels qu’elle recueille et qui proviennent de sites Web accessibles au public, de sources tierces autorisées ou d’interactions des utilisateurs avec ChatGPT si les renseignements étaient de nature sensible ou les individus ne pouvaient pas s’attendre raisonnablement à ce que leurs renseignements soient communiqués.
- Comme il a été expliqué précédemment, au moment de l’entraînement des modèles GPT-3.5 et GPT-4, il est possible que les ensembles de données d’entraînement d’OpenAI aient pu comprendre des quantités importantes de renseignements personnels ayant divers degrés de sensibilité.
- OpenAI a expliqué qu’elle a mis en œuvre diverses mesures pour réduire le risque que ses modèles GPT-3.5 et GPT-4 communiquent des renseignements sensibles ou personnels dans leurs résultats. En plus des mesures dont il est question aux paragraphes é (c’est-à-dire la suppression de certaines catégories de sites Web des ensembles de données d’entraînement, la dissociation et la filtration des interactions des utilisateurs, et les instructions fournies aux personnes chargées de l’entraînement), OpenAI a indiqué ce qui suit :
- Elle a entraîné ces modèles à ne pas fournir des renseignements personnels ou sensibles sur des individus (telles que des adresses personnelles ou d’autres renseignements d’identification personnelle) en réponse aux demandes des utilisateurs – même si le public a accès à ces renseignements sur Internet et au moyen de moteurs de recherche, et même si l’individu est une personnalité publique –, ce qui permet de limiter la communication de renseignements personnelsNote de bas de page 180. Bien qu’il n’ait pas fourni d’éléments probants, OpenAI a également affirmé que, selon une évaluation interne, les modèles GPT-3.5 et GPT-4 arrivaient à éviter que de tels renseignements figurent dans le contenu qu’ils génèrent dans 98 % et 100 % des cas, respectivement.
- Habituellement, les réponses de ChatGPT ne contiennent que des renseignements au sujet de personnalités publiques ou d’autres individus ayant une forte présence en ligne. Il est improbable qu’elles contiennent des renseignements personnels au sujet de particuliers qui ne sont pas dans l’œil du public, puisque, statistiquement, ces renseignements sont peu présents dans les ensembles de données d’entraînement. De plus, OpenAI a affirmé que, de manière générale, il était plus probable d’obtenir les renseignements personnels de particuliers en faisant une recherche Internet à leur sujet qu’en posant une question à ChatGPT.
- Nous n’allons pas formuler de commentaires sur la quantité et la nature des renseignements personnels qui figurent dans les réponses des moteurs de recherche, puisque celles-ci sont générées dans un contexte différent et que la présente enquête ne traite pas de cette question. Bien que nous reconnaissions qu’il est possible que la situation ait déjà évolué, nous remarquons toutefois que, jusqu’à récemment, ChatGPT différait fondamentalement des moteurs de recherche qui permettaient simplement aux utilisateurs de naviguer sur Internet pour trouver de l’information. ChatGPT, quant à lui, peut créer du nouveau contenu et une partie de celui-ci peut contenir des renseignements plausibles, mais inexacts ou fabriqués, notamment des renseignements personnels (c’est-à-dire, des « hallucinations », comme il en sera question plus loin dans le présent rapport).
- En ce qui concerne les mesures d’atténuation mises en œuvre par OpenAI dans le contexte des modèles GPT-3.5 et GPT-4 (notant qu’elles ont évolué depuis), notre enquête a révélé que les catégories de renseignements sensibles ou privés qu’OpenAI a cherché à retirer des résultats du modèle étaient plus limitées que le large éventail de renseignements personnels visés par les Lois. Par exemple, OpenAI a indiqué qu’elle n’avait pas de façon de mesurer si certains types de renseignements personnels, notamment les opinions des individus et les rumeurs à leur sujet, seraient communiqués.
- Lorsqu’OpenAI communique des renseignements personnels sur des individus qui ne sont pas des personnalités publiques, nous estimons que cette communication n’est pas conforme aux attentes raisonnables des individus pour les mêmes raisons que celles expliquées dans les sections sur les enjeux 2A et 2B. De plus, selon la nature des renseignements personnels communiqués et les circonstances précises du cas, la communication pourrait aussi ne pas respecter les attentes raisonnables des personnalités publiques, même lorsque les renseignements personnels sont accessibles sur Internet.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Compte tenu de ce qui précède, nous jugeons que, au moment où les modèles GPT-3.5 et GPT-4 ont été développés et déployés, OpenAI aurait dû obtenir le consentement exprès pour la communication des renseignements personnels qu’elle faisait par l’intermédiaire de ChatGPT si les renseignements étaient de nature sensible ou si les individus ne pouvaient pas s’attendre raisonnablement à ce que leurs renseignements soient communiqués.
- Par conséquent, le CPVP, le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique jugent qu’OpenAI n’a pas obtenu un consentement valide pour cette pratique; elle contrevient donc à l’article 6.1 de la LPRPDE et à l’article 4.3 du troisième principe figurant à l’annexe 1 de la LPRPDE, aux articles 7 et 8 de la PIPA de l’Alberta, et aux articles 6 à 8 de la PIPA de la Colombie-Britannique.
Développements récents et conclusions au titre de la LPRPDE
- Comme il a été mentionné précédemment, en réponse à notre rapport préliminaire, OpenAI a indiqué qu’elle a mis en œuvre un nouvel outil pour détecter et masquer les renseignements permettant d’identifier des individus qui peuvent se retrouver dans les données d’entraînement recueillies à partir de renseignements accessibles au public, d’ensembles de données sous licence ou d’interactions des utilisateurs.
- OpenAI a déclaré que cet outil peut masquer avec plus de précision les renseignements personnels de particuliers, ainsi que déterminer quand masquer les renseignements personnels concernant des personnalités publiques et quand conserver leurs renseignements qui pourraient représenter un intérêt pour le public. OpenAI a aussi affirmé que, dans la mesure où un plus grand éventail de renseignements personnels (comme les opinions ou les caractéristiques d’un individu) sont inclus dans les ensembles de données d’entraînement, l’outil peut détecter et caviarder les renseignements qui permettraient d’établir l’identité d’un individu.
- Le CPVP croit que ce nouvel outil et les autres mesures d’atténuation d’OpenAI mises en œuvre aux différentes étapes du développement et du déploiement de ChatGPT (décrites en détail dans diverses sections du présent rapport et énumérées à l’annexe A) peuvent réduire considérablement le risque que des renseignements personnels de particuliers et, plus particulièrement, des renseignements sensibles, puissent dorénavant se retrouver dans les ensembles de données utilisés pour entraîner les futurs modèles d’OpenAI ou être communiqués dans les résultats des modèles. Pour en arriver à ce constat, le CPVP, comme il est mentionné dans d’autres sections du présent rapportNote de bas de page 181, a également tenu compte des autres engagements d’OpenAI en matière de transparence (notamment la publication et la promotion d’un billet de blogue canadien présentant ses pratiques en matière de protection de la vie privée) et de la décision de la société d’abandonner GPT-3.5 et GPT-4 et d’entraîner les modèles actuels qui alimentent ChatGPT en appliquant les nouvelles mesures d’atténuation.
- Par conséquent, le CPVP estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
- Cette conclusion est fondée sur les observations d’OpenAI, ainsi que notre compréhension et notre attente qu’OpenAI continuera à réellement mettre en œuvre et améliorer ces mesures d’atténuation et à développer d’autres techniques novatrices de protection de la vie privée à l’avenir.
Conclusions au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Selon l’analyse de l’enjeu 2A ci-dessus, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta déterminent qu’OpenAI n’a pas démontré sa conformité aux obligations précises relatives au consentement implicite au titre de l’article 8 de la PIPA de la Colombie-Britannique et au consentement présumé ou sur avis au titre du paragraphe 8(2) de la PIPA de l’Alberta lorsqu’OpenAI recueille et utilise des renseignements personnels recueillis sur des sites Web accessibles au public et de sources tierces autorisées.
- Les obligations relatives au consentement implicite au titre de l’article 8 de la PIPA de la Colombie-Britannique et au consentement présumé ou sur avis au titre du paragraphe 8(2) de la PIPA de l’Alberta s’appliquent à la communication de renseignements personnels par une organisation. Par conséquent, l’analyse et les conclusions présentées dans la discussion sur l’enjeu 2A ci-dessus s’appliquent également à la communication par OpenAI de renseignements personnels recueillis sur des sites Web accessibles au public, de sources tierces autorisées et des interactions des utilisateurs avec ChatGPT, dans la mesure où OpenAI n’obtient pas un consentement exprès pour cette communication.
- Par conséquent, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta considèrent que cet élément de la plainte est fondé et non résolu au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta.
- En ce qui concerne les modèles ChatGPT futurs et non examinés, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta refusent de tirer des conclusions sur la communication future de renseignements personnels et sur la question de savoir si cette communication répond aux exigences relatives au consentement implicite au titre de la PIPA de la Colombie-Britannique et au consentement présumé au titre de la PIPA de l’Alberta. Le CIPVP de la Colombie-Britannique informe OpenAI des obligations précises relatives au consentement implicite au titre de l’article 8 de la PIPA de la Colombie-Britannique, qui s’appliquent à toute communication de renseignements personnels sur la base d’un consentement implicite. De même, le CIPVP de l’Alberta informe OpenAI des obligations précises relatives au consentement présumé ou sur avis au titre du paragraphe 8(2) de la PIPA de l’Alberta, qui s’appliquent à toute communication de renseignements personnels sur la base d’un consentement présumé ou sur avis.
Analyse au titre de la LPRPSP du Québec
- Concernant la question de la communication de renseignements personnels qui peut être effectuée par ChatGPT, selon la LPRPSP du Québec, ce sont les règles relatives au consentement dont il a été question dans les sections des enjeux 2A et 2B qui s’appliquent.
- En ce qui concerne la communication par le système de renseignements provenant de sites Web accessibles au public et de tiers détenant des données sous licence, la CAI réitère qu’OpenAI n’a pas été en mesure de démontrer qu’elle avait suffisamment consigné en dossier le contexte dans lequel le consentement a été obtenu afin d’en assurer la validité.
- À cet effet, la CAI estime que les motifs, la recommandation et la réserve des droits dont il est question dans la section de l’enjeu 2A s’appliquent à la question de la communication des renseignements personnels effectuée par OpenAI.
- Concernant la communication des renseignements personnels recueillis aux fins de l’entraînement des modèles et de ceux tirés des clavardages utilisés aux fins de l’entraînement des modèles, la CAI réitère ses motifs ainsi que la recommandation et la réserve des droits dont il est question dans la section de l’enjeu 2B.
- Par conséquent, et pour les motifs exposés dans les sections des enjeux 2A et 2B, la CAI conclut que les pratiques d’OpenAI concernant la communication de renseignements personnels contrevenaient aux articles 6, 8, 13 et 14, et au premier alinéa de l’article 12 de la LPRPSP du Québec.
Enjeu 3 : OpenAI a-t-elle suffisamment fait preuve de transparence au sujet de ses modèles?
- Nous constatons qu’OpenAI n’a pas respecté son obligation de faire preuve de prévue par les Lois.
- Selon les Lois, une organisation doit faire preuve de transparence quant à la collecte, à l’utilisation et à la communication des renseignements personnels de toute personneNote de bas de page 182.
- Dans le contexte de l’IA générative, les attentes précises découlant des obligations prévues par la loi ont été communiquées dans les principes relatifs à l’IA générative publiés par les autorités fédérales, provinciales et territoriales responsables de la protection de la vie privée en décembre 2023Note de bas de page 183. Plus précisément, il est indiqué dans ces principes (non exhaustivement) que les développeurs et les fournisseurs d’IA générative devraient, en ce qui concerne la transparence et l’explicabilité des modèles, faire ce qui suit :
- informer les personnes des renseignements personnels sur lesquels porte la collecte ainsi que du moyen, du moment et de la raison pour laquelle ils sont recueillis, utilisés ou communiqués à toute étape du cycle de vie du système d’IA générative (y compris le développement, l’entraînement et l’exploitation) dont la partie est responsable;
- maintenir et publier la documentation sur les ensembles de données utilisés pour développer ou entraîner l’outil d’IA générative, y compris les sources des ensembles de données, l’assise légale pour leur collecte et leur utilisation, l’existence d’accords de licence ou les autres restrictions sur les utilisations appropriées des ensembles de données, et toute modification, tout filtrage ou toute autre pratique de conservation appliquée aux ensembles de données;
- prendre les mesures requises pour que les résultats des systèmes d’IA générative soient traçables et explicables. Lorsqu’un développeur ou un fournisseur est d’avis que les résultats d’un outil d’IA générative ne sont pas explicables, ce fait doit être communiqué explicitement à toute organisation qui utilise l’outil ou à toute personne interagissant avec l’outil pour lui permettre de déterminer si ce dernier convient aux fins prévues;
- s’assurer que toute l’information communiquée au sujet d’un système d’IA générative est conçue pour être compréhensible par le public cible et facilement accessible avant, pendant et après l’utilisation du système.
- OpenAI a indiqué qu’elle déploie des efforts raisonnables pour faire preuve de transparence au sujet de ses pratiques de traitement des renseignements. En plus de sa politique de confidentialité et de ses conditions d’utilisation, que les utilisateurs doivent respectivement reconnaître et accepter avant d’utiliser ChatGPT sur le site Web ou l’application d’OpenAI, la société a expliqué qu’elle fournit des avis contextuels et des invites à des moments pertinents du parcours de l’utilisateur, par exemple lors de l’inscription et de l’intégration. Elle maintient également à jour un centre d’aide, où les gens peuvent trouver des réponses aux questions fréquemment posées sur ChatGPT, et un catalogue des recherches, où sont disponibles des documents de recherche visant des aspects plus techniques.
- Nous reconnaissons que les articles d’OpenAI sur sa politique de confidentialité et son centre d’aide sont facilement accessibles et généralement rédigés en langage clair. Nous constatons cependant que la politique de confidentialité, et certains documents importants, comme des articles à propos de l’équipe de soutien (y compris celui dont il est question dans le paragraphe ci-dessous) n’étaient pas initialement offerts à la population canadienne en français. OpenAI a confirmé que la version française de la politique de confidentialité n’a été offerte qu’à partir de mai 2024.
- Nous constatons aussi que certains renseignements clés sont incomplets ou ambigus, ou encore absents des communications d’OpenAI. En particulier, OpenAI ne fournit que des renseignements très généraux sur les ensembles de données utilisés pour entraîner ses modèles. En effet, sa politique de confidentialité comprend un lien vers un article de l’équipe de soutien intitulé « Comment ChatGPT et nos modèles de base sont développésNote de bas de page 184 », qui explique en termes génériques et vagues que ChatGPT a été développé en utilisant 1) les renseignements qui sont accessibles au public sur Internet, 2) les renseignements qu’OpenAI obtient de tiers autorisés et 3) les renseignements que les utilisateurs de ChatGPT et les individus chargés de l’entraînement fournissent.
- Nous constatons qu’OpenAI ne donne pas suffisamment d’explications quant aux catégories et aux sources des renseignements personnels inclus dans ses ensembles de données destinés à l’entraînement. Par exemple, un individu qui lit l’article mentionné ci-dessus ne comprendrait pas nécessairement que les renseignements publiés il y a parfois de nombreuses années par elle ou à son sujet sur un blogue, un forum de discussion ou sur les médias sociaux pourraient être considérés comme des renseignements accessibles au public, et pourraient être recueillis et utilisés aux fins de l’entraînement des modèles d’OpenAI.
- OpenAI n’est pas plus transparent à cet égard dans les documents techniques publiés sur son site Web, lesquels sont destinés à un public plus doué avec la technologie. Par exemple, dans son rapport technique sur GPT-4 (en anglais seulement), OpenAI précise que, « [traduction] compte tenu du contexte concurrentiel et des éléments qui peuvent avoir une incidence sur la sécurité des modèles d’envergure comme GPT-4, le rapport ne contient aucune précision supplémentaire sur l’architecture (y compris la taille du modèle), le matériel, le calcul visant l’entraînement, la construction de l’ensemble de données, la méthode d’entraînement, ou de précisions connexes » [caractères gras ajoutés]Note de bas de page 185.
- Enfin, nous notons que Sam Altman, président-directeur général d’OpenAI, a déclaré publiquement que ChatGPT est, par définition, une « boîte noire », ce qui laisse entendre que les raisons précises pour lesquelles le GML se comporte comme il le fait ainsi que les mécanismes qui sont à la base de son comportement ne sont pas connus, et ce, même pour ses créateursNote de bas de page 186. Même si OpenAI a indirectement formulé des commentaires sur ce manque d’explicabilité dans certains documents de recherche publiés sur son site Web, nous constatons qu’elle ne l’explique pas suffisamment aux organisations utilisant l’outil ou aux individus qui interagissent avec lui. Cependant, compte tenu de l’intérêt et de l’importance de cette technologie émergente et en évolution rapide, des stratégies et des techniques devraient être mises en place pour améliorer l’explicabilité de ChatGPT et d’autres GML.
- Bien que nous reconnaissions qu’OpenAI a rédigé et offert de nombreux documents de communication pour expliquer ses pratiques en matière de protection des renseignements personnels et le fonctionnement de ses modèles, notamment sa politique de confidentialité, ses articles pertinents du centre d’aide et ses avis contextuels, comme il a été expliqué ci-dessus, certains renseignements clés ne sont pas fournis.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, le CPVP, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta jugent qu’OpenAI a contrevenu à l’article 4.8 du huitième principe figurant à l’annexe 1 de la LPRPDE, à l’article 10 de la PIPA de la Colombie-Britannique, et à l’article 13 de la PIPA de l’Alberta. De plus, la CAI encourage fortement OpenAI à mettre en œuvre les recommandations relatives à la transparence qui sont formulées dans le présent rapport en ce qui concerne ses modèles.
Développements récents et conclusions au titre de la LPRPDE
- En réponse à notre rapport préliminaire, OpenAI a indiqué qu’elle offrirait le contenu pertinent du centre d’aide en français. Nous considérons qu’il s’agit d’un changement positif.
- Pour ce qui est de la divulgation des sources de données, OpenAI a d’abord fait valoir que le langage qu’elle utilise dans ses communications correspond aux pratiques du marché pour l’entraînement des modèles de pointe. Elle a également déclaré qu’interpréter les Lois comme obligeant les développeurs de modèles d’IA générative à préciser les sources à un tel niveau de granularité serait incompatible avec les objectifs prévus par les Lois, qui visent à trouver un équilibre entre le droit à la vie privée des individus et le besoin légitime des organisations de mener des activités de recherche et développement. Selon elle, une telle précision représenterait un fardeau excessif pour les organisations, alors que, en revanche, les avantages supplémentaires pour les individus en ce qui concerne leur capacité à exercer leur droit à la vie privée seraient limités.
- Comme il a été mentionné précédemment, bien que le CPVP croit que les attentes raisonnables des individus en matière d’IA générative aient évolué au cours des dernières années, ces attentes sont étroitement liées au niveau de transparence des développeurs et des fournisseurs de modèles d’IA générative et dépendent de celui-ci.
- Bien que nous convenions qu’une divulgation complète de chaque source de données ne serait pas pratique ou nécessaire pour se conformer aux Lois, nous estimons que la description générale faite par OpenAI des catégories de renseignements personnels qu’elle recueille ne respecte pas le degré de transparence exigé par les Lois. Nous jugeons aussi que, pour permettre aux individus de comprendre les pratiques d’OpenAI en matière de gestion des renseignements personnels, la société devrait publier un aperçu complet et suffisamment détaillé des principales catégories de contenu qu’elle utilise pour l’entraînement préalable et l’affinement de ses modèles sous une forme généralement compréhensibleNote de bas de page 187.
- À la suite d’autres discussions avec les Commissariats, OpenAI s’est engagée à étoffer son article intitulé Comment ChatGPT et nos modèles de base sont développés pour y inclure des explications plus claires sur les sources d’information utilisées pour entraîner ses modèles (et pour préciser qu’elle recueille et utilise du contenu accessible au public, comme des billets de blogue ou d’autres publications publiques). Elle a également accepté de faire la même chose dans le billet de blogue canadien qu’elle publiera sur son site Web et dont elle fera la promotion dans les médias canadiensNote de bas de page 188.
- Par conséquent, nous considérons que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
Enjeu 4 : Est-ce que la société OpenAI a pris des mesures raisonnables pour veiller à ce que les renseignements qu’elle produit sur les individus soient aussi exacts, complets et à jour que nécessaire selon les fins auxquelles ils doivent être utilisés?
- Pour les raisons ci-dessous, les Commissariats estiment qu’OpenAI n’a pas respecté les obligations en matière d’exactitude des Lois.
- L’article 4.6 du sixième principe figurant à l’annexe 1 de la LPRPDE prévoit que « les renseignements personnels doivent être aussi exacts, complets et à jour que l’exigent les fins auxquelles ils sont destinés ». Selon l’article 33 de la PIPA de l’Alberta, une organisation doit faire un effort raisonnable pour s’assurer que les renseignements personnels qu’elle recueille, utilise ou communique ou qui sont recueillis, utilisés ou communiqués pour son compte sont exacts et complets dans la mesure où il est raisonnable de le faire aux fins de collecte, d’utilisation et de communication déterminées par l’organisation.
- Les obligations en matière d’exactitude des lois de la Colombie-Britannique et du Québec sont définies de manière plus restrictive. Selon l’article 33 de la PIPA de la Colombie-Britannique, une organisation doit faire un effort raisonnable pour s’assurer que les renseignements personnels qu’elle recueille ou qui sont recueillis pour son compte sont exacts et complets si a) il est probable que l’organisation utilisera ces renseignements personnels pour prendre une décision qui touche l’individu auquel ils se rapportent ou b) il est probable que l’organisation communiquera ces renseignements personnels à une autre organisation. L’article 35 de la PIPA de la Colombie-Britannique prévoit que les renseignements personnels utilisés pour prendre une telle décision doivent être conservés pendant au moins un an. Enfin, l’article 11 de la LPRPSP du Québec prévoit que « [t]oute personne qui exploite une entreprise doit veiller à ce que les renseignements personnels qu’elle détient sur autrui soient à jour et exacts au moment où elle les utilise pour prendre une décision relative à la personne concernée. Les renseignements utilisés pour prendre une telle décision sont conservés pendant au moins un an suivant la décision. »
- Dans les observations soumises aux Commissariats, OpenAI a indiqué que les GML sont conçus pour générer du texte plausible et logique dans un style conversationnel en prédisant le prochain mot le plus probable dans une phrase. Toutefois, la société a mentionné que, dans certains cas, le prochain mot le plus probable n’est pas forcément le plus exact. Elle a également affirmé qu’elle sait qu’il s’agit d’un problème persistant et a indiqué que des recherches sont en cours dans l’ensemble du secteur de l’IA en vue d’améliorer l’exactitude des faits générés par les GML.
Niveau d’exactitude
- Dans ce contexte, OpenAI a réalisé des évaluations internes sur l’exactitude de ses modèles. Tout particulièrement, OpenAI cherchait à évaluer la performance de GPT‑4 en fonction de neuf facteurs internes en matière d’exactitude (à savoir l’apprentissage, la technologie, la rédaction, l’histoire, les mathématiques, les sciences, la recommandation, le codage et le commerce) par rapport à celle des versions précédentes de ChatGPT. Comme il est indiqué dans le rapport technique sur GPT-4 (en anglais seulement)Note de bas de page 189, les résultats de ces évaluations suggèrent que, en moyenne, de 70 à 80 % du contenu généré par GPT-4 était exact, selon les catégories de questionNote de bas de page 190. Il est également indiqué dans le rapport que le contenu généré par GPT-3.5, soit le modèle qui alimentait ChatGPT avant le lancement de GPT-4, est 19 % moins exact que celui généré par GPT-4Note de bas de page 191.
- Par conséquent, selon les essais effectués par OpenAI, entre 20 et 50 % des réponses générées par ChatGPT, en fonction de la version et du sujet mis à l’essai, étaient considérées comme erronées. De plus, les évaluations (en 2023) d’OpenAI ont démontré que GPT-3.5, le modèle d’OpenAI le plus utilisé au moment de l’évaluation, était beaucoup moins exact que GPT-4.
- OpenAI a fait valoir que ces chiffres n’étaient établis que sur la base de neuf évaluations internes qu’elle a effectuées et qu’ils n’étaient pas destinés à représenter l’exactitude globale du système ni à évaluer l’exactitude des résultats comportant des renseignements personnels.
- Nous avons demandé à OpenAI si elle était en mesure de nous fournir un rapport interne ou une analyse statistique sur l’exactitude des renseignements personnels figurant, par exemple, dans les réponses des modèles à l’invite d’un utilisateur souhaitant obtenir des renseignements sur une personne.
- Pour donner suite à cette demande, OpenAI a dirigé les Commissariats vers une étude réalisée par un tiers, qui démontre que le taux d’hallucination de ChatGPT était le plus bas (c’est-à-dire 3 %) parmi les services d’IA les plus utilisésNote de bas de page 192. Cependant, cette étude s’applique plus ou moins à cette question, puisqu’elle porte exclusivement sur la fréquence à laquelle les GML génèrent des hallucinations lorsqu’ils exécutent des tâches très précises comme résumer un document. Autrement dit, l’étude ne visait pas à évaluer la capacité de ChatGPT à fournir des renseignements personnels exacts dans les réponses aux invites des utilisateurs.
- En réponse à des questions supplémentaires, la société OpenAI a confirmé qu’elle n’avait pas réalisé une évaluation permettant de valider expressément l’exactitude générale des renseignements personnels fournis par GPT-3.5 et GPT-4 figurant dans une réponse à une question à propos d’un individuNote de bas de page 193.
- Au cours de l’enquête, nous avons relevé plusieurs cas où des affirmations erronées et néfastes générées par ChatGPT, notamment des fausses allégations de harcèlement sexuel ou de corruption, avaient été publiées dans les médias, et celles-ci ont peut-être eu des répercussions importantes sur la vie des individus touchésNote de bas de page 194. Bien qu’OpenAI ait résolu ces problèmes de manière réactive dans certains cas, la société a publiquement reconnu que GPT-3.5 et GPT-4 peuvent générer des renseignements inexacts sur le plan factuelNote de bas de page 195. Malgré cela, OpenAI n’a pas assuré aux Commissariats qu’il est peu probable que des cas de communications inexactes et préjudiciables, comme ceux décrits ci-dessus, se reproduisent à l’avenir.
- Bien qu’OpenAI a affirmé que des recherches sont en cours dans l’ensemble du secteur de l’IA en vue d’améliorer l’exactitude des faits générés par les GML, il est important de noter que de nombreux experts et chercheurs du domaine croient que les hallucinations et les inexactitudes sont inhérentes aux GML et persisteront en raison de la manière dont les GML sont conçus et du manque de compréhension « cognitive » du monde de ces derniersNote de bas de page 196.
- Comme il est expliqué précédemment, les modèles GPT-3.5 et GPT-4 d’OpenAI ont été entraînés au moyen de données obtenues à partir de médias sociaux et de forums de discussions, qui contiennent une grande quantité de renseignements personnels. La plupart de ces renseignements auraient été subjectifs ou partiaux, et ils auraient refléter les opinions des individus qui les ont publiés en ligne, notamment au sujet d’autres individus. Le risque inhérent que ces sources contiennent des renseignements inexacts est tel qu’elles ne conviennent pas aux modèles d’entraînement qui seraient ensuite utilisés pour fournir des réponses factuelles aux questions des utilisateurs.
- Cela est d’autant plus vrai, étant donné que les mesures d’atténuation d’OpenAI en place au moment du préentraînement de GPT-3.5 et GPT-4 étaient limitées (comme il est décrit aux paragraphes 128 et 133). De plus, bien que nous reconnaissions l’affirmation d’OpenAI selon laquelle elle a affiné ses modèles GPT-3.5 et GPT-4 de sorte qu’ils ne fournissent pas de renseignements personnels ou sensibles, nous avons trouvé divers exemples de déclarations indiquant des manquements à cet égard, c’est-à-dire concernant l’inclusion de renseignements de particuliers dans les résultats des modèles (voir ci-dessus). De façon plus générale, nous constatons que les préjudices pour la vie privée ne se limitent pas nécessairement à la communication de renseignements personnels et sensibles, et qu’ils peuvent aussi résulter de la communication de renseignements personnels inexacts sur des personnalités publiques ou sur des professionnels comme des médecins.
Avertissements sur l’exactitude et vérification des faits
- Les dispositions sur l’exactitude prévues par les Lois n’exigent pas que les renseignements personnels contenus dans les résultats de l’IA générative soient entièrement exacts. En particulier, la LPRPDE prévoit que les renseignements personnels doivent être aussi exacts, complets et à jour que l’exigent les fins auxquelles ils sont destinés.
- OpenAI a indiqué que l’objectif général pour lequel elle utilise les renseignements personnels est de développer et de déployer des modèles d’IA générative qui produisent du texte pertinent au contexte en prédisant le prochain mot le plus probable dans une phrase. Cela dit, OpenAI autorise l’utilisation de ChatGPT à des fins très diverses, qui sont soumises à certaines restrictions précisées dans ses politiques d’utilisationNote de bas de page 197. Par exemple, bien qu’au moment de rédiger le présent rapport, les politiques d’OpenAI ne permettaient pas l’automatisation des décisions à haut risque dans des domaines sensibles (comme l’emploi, les activités financières ou les services gouvernementaux essentiels) sans examen par un humain, elles n’interdisaient pas l’utilisation de ses services pour appuyer la prise de décisions dans ces domaines. De même, les politiques d’OpenAI permettent d’utiliser ChatGPT pour fournir des conseils personnalisés qui doivent être fournis par quelqu’un ayant un permis de pratique, comme des conseils juridiques ou médicaux, pourvu qu’il y ait la participation appropriée d’un professionnel ayant un tel permis.
- En plus des préjudices potentiels pour la vie privée qui pourraient découler de l’utilisation de résultats générés par un outil contenant des renseignements personnels erronés à des fins qui ne respectent pas la politique d’OpenAI, il est important de reconnaître que des préjudices liés à la réputation ou d’autres types de préjudices pourraient également survenir lorsque l’outil est utilisé à des fins permises par les politiques d’OpenAI, comme pour obtenir les renseignements biographiques d’une personne.
- Par conséquent, les utilisateurs doivent comprendre le degré d’exactitude des renseignements personnels qui seront inclus dans les résultats de ChatGPT afin d’établir s’ils sont suffisamment exacts pour les fins prévues. Si, par exemple, ChatGPT est utilisé pour rédiger un discours de mariage, rédiger une invitation à un anniversaire ou pour d’autres fins semblables, il y aura moins d’attentes quant à l’exactitude que si l’outil est utilisé pour appuyer l’évaluation de demandes d’emploi ou de logement; dans ce dernier exemple, des résultats inexacts ou des hallucinations pourraient causer des préjudices importants à un individu dont la demande est mal évaluée à cause de renseignements inexacts.
- Consciente des limites de ses modèles en ce qui concerne l’exactitude des faits, la société OpenAI a affirmé qu’elle intègre des avis clairs, notamment dans ses conditions d’utilisation, sa politique de confidentialité et son centre d’aide, pour avertir les utilisateurs de ChatGPT de ne pas présumer que les résultats de ses modèles sont exacts et qu’ils devraient en vérifier l’exactitude.
- Toutefois, nos essais visant GPT-3.5 et GPT-4 ont révélé qu’OpenAI i) n’avertissait pas adéquatement les utilisateurs de ChatGPT que les renseignements figurant dans les réponses peuvent être erronés; ii) n’incitait pas toujours les utilisateurs à vérifier que les renseignements générés sont exacts (c’est-à-dire que l’avertissement à ce sujet n’est pas clair ni permanent); et iii) ne fournissait pas toujours aux utilisateurs un mécanisme viable pour vérifier les faits de manière efficace et fiable.
- En particulier, OpenAI a affirmé qu’un avertissement permanent se trouve au bas de l’interface de ChatGPT. L’avertissement va comme suit : « [traduction] ChatGPT peut faire des erreurs. Pensez à vérifier les informations importantes. » (voir les figures 4.1 et 4.2 ci-dessous). Cependant, nos essais nous ont permis de constater que le texte n’était pas bien en vue (c’est-à-dire qu’il est affiché dans une police gris pâle et difficile à voir). De plus, nous avons remarqué que l’avertissement était uniquement affiché au bas de la page (sous l’espace où les utilisateurs peuvent entrer leurs invites) plutôt qu’à côté de la réponse elle-même. Par conséquent, de nombreux utilisateurs pourraient ne pas voir l’avertissement.
Figure 4.1 Interface de l’outil de ChatGPT où l’on voit un avertissement sur l’exactitude au bas de l’écran Version textuelle de la figure 4
Figure 4.1 Interface de l’outil de ChatGPT où l’on voit un avertissement sur l’exactitude au bas de l’écran
Figure 4.2 Avertissement sur l’exactitude Version textuelle de la figure 4.2.
Figure 4.2 Avertissement sur l’exactitude
[Envoyez un message à ChatGPT]
Message ChatGPT
[ChatGPT peut faire des erreurs. Pensez à vérifier les informations importantes.]
ChatGPT can make mistakes. Check important info.
- Nos essais visant GPT-3.5 et GPT-4 nous ont aussi permis de constater que les résultats des modèles contiennent parfois des avertissements comme « en date de ma dernière mise à jour… », « il peut y avoir eu des développements depuis… » et « je recommande de consulter des sources de nouvelles… ». En effet, les modèles sont entraînés à l’aide de données recueillies pendant une certaine période (par exemple, jusqu’en septembre 2023 pour GPT-3.5 et en octobre 2023 pour le nouveau modèle GPT-4o).
- Toutefois, ces avertissements dans les réponses des modèles n’étaient pas fournis par défaut. Dans certains cas, nos essais ont démontré que les avertissements ne faisaient partie que des réponses initiales, et non des interactions subséquentes (même si l’utilisateur fermait sa session, puis la rouvrait plus tard pour poursuivre sa conversation avec ChatGPT). Par conséquent, nous concluons que les utilisateurs n’auraient pas tous reçu un tel avertissement et que, même lorsqu’ils l’auraient reçu, l’avertissement ne les aurait pas clairement informés de la nécessité de vérifier l’exactitude des renseignements figurant dans les réponses.
- Le ton bien souvent autoritaire des réponses de ChatGPT et le fait que les résultats des modèles peuvent contenir un mélange de renseignements exacts et d’hallucinations augmentent le risque que les utilisateurs se fient trop aux résultats des modèles. Par exemple, lors de nos essais, le modèle a indiqué qu’un universitaire avait participé à un certain projet de recherche, mais ce n’était pas le cas. Lorsque l’utilisateur lui a demandé de confirmer que l’universitaire avait participé au projet, ChatGPT l’a réitéré avec conviction.
- À plusieurs reprises, dans des cas bien documentés, des individus ont eu recours à ChatGPT dans un contexte professionnelNote de bas de page 198, puis ont utilisé les renseignements générés par le modèle sans savoir qu’ils étaient erronés. Dans certains cas, ces individus avaient demandé à ChatGPT de confirmer que les renseignements étaient exacts, et l’outil l’avait fait en toute confianceNote de bas de page 199.
- Lors de nos essais visant GPT-3.5, soit le modèle d’OpenAI le plus utilisé au moment où la plainte a été déposée, nous avons constaté que les sources d’information d’où provenaient les renseignements figurant dans les réponses n’étaient pas fournies aux utilisateurs. Il en va de même pour GPT-4, sauf dans certaines circonstances décrites ci-dessous.
- Lorsqu’OpenAI ne fournit pas les sources d’où proviennent les renseignements personnels figurant dans les résultats de ChatGPT, il n’est pas facile ni possible pour les utilisateurs de vérifier que les faits sont exacts, puisque les renseignements peuvent provenir de divers sites Web ou ensembles de données accessibles en ligne ou encore avoir été « inventés » par le modèle.
- Enfin, lors de nos essais visant GPT-4, nous avons constaté que le modèle effectuait, dans certains cas, une recherche sur Internet pour générer un résultat (c’est-à-dire à l’aide de la fonction de recherche dans le navigateur), selon la nature de l’invite de l’utilisateur. Dans ces cas, la réponse contenait les liens vers certaines des sources utilisées pour la générer. Donner les sources utilisées permet aux utilisateurs de vérifier plus facilement l’exactitude des renseignements personnels figurant dans les réponses en les comparant à ceux des sources fournies.
- Ces essais nous aussi ont permis de constater que, lorsqu’on lui pose les mêmes questions, GPT-4, qui utilise la fonctionnalité de recherche dans le navigateur, communique plus de renseignements personnels que GPT-3.5, qui n’était pas doté de cette fonctionnalité. De plus, même si OpenAI a expliqué que la fonctionnalité était automatiquement déclenchée lorsque GPT-4 juge que des informations plus récentes ou supplémentaires sont nécessaires pour répondre à l’invite d’un utilisateur, la société n’a pas fourni de précisions sur les façons dont le modèle sélectionne les sources Internet utilisées pour générer un résultat. Cela dit, et comme nous l’expliquons plus loin, nous considérons généralement l’inclusion de sources comme un changement positif, à condition que cette fonctionnalité soit mise en œuvre de manière à protéger la vie privée.
- En fin de compte, nous estimons qu’OpenAI n’a pas fourni aux utilisateurs suffisamment de renseignements pour qu’ils puissent établir si le niveau d’exactitude des résultats de GPT-3.5 et GPT-4 convenait aux fins auxquelles ils voulaient les utiliser. Cela comprenait le fait de :
- ne pas aviser adéquatement les utilisateurs des limites quant à l’exactitude des renseignements personnels figurant dans les réponses de ChatGPT (c’est-à-dire ne pas aviser clairement les utilisateurs des limites générales quant à l’exactitude ni fournir des renseignements précis sur le niveau d’exactitude en question);
- ne pas établir le niveau d’exactitude des renseignements personnels figurant dans les réponses ni être en mesure de fournir des éléments probants pour justifier le fait que ces réponses étaient plus exactes que d’autres types de réponses, qui, selon les estimations d’OpenAI, étaient considérés comme erronés dans 20 à 50 % des cas;
- ne pas toujours inciter les utilisateurs à vérifier l’exactitude des renseignements personnels figurant dans les réponses de ChatGPT et ne pas indiquer clairement qu’il est nécessaire de le faire;
- ne pas fournir suffisamment de renseignements pour permettre aux utilisateurs de vérifier l’exactitude des renseignements personnels figurant dans les réponses lorsque les outils ne fournissent pas de sources précises, notamment celles que GPT-4 fournissait parfois et que GPT-3.5 ne fournissait jamais.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, le CPVP et le CIPVP de l’Alberta jugent qu’OpenAI a contrevenu à l’article 4.6 du sixième principe figurant à l’annexe 1 de la LPRPDE et à l’article 33 de la PIPA de l’Alberta. De plus, le CIPVP de la Colombie-Britannique estime qu’OpenAI a contrevenu à l’article 33 de la PIPA de la Colombie-Britannique, dans les cas où des résultats ont été utilisés pour prendre une décision qui a touché un individu concerné par les renseignements personnels ou des résultats ont été communiqués à une autre organisation.
- Conformément à l’article 11 de la LPRPSP du Québec, l’obligation de détenir des renseignements personnels à jour et exacts s’applique dans les cas où les renseignements sont utilisés aux fins de prise de décision relativement aux personnes concernées, et non au moment où ceux-ci sont recueillis. La CAI est d’avis que la preuve au dossier ne lui permet pas de constater que ChatGPT a utilisé des renseignements personnels inexacts afin de prendre des décisions relativement aux personnes concernées. Malgré ce fait, la CAI encourage OpenAI à mettre en œuvre les recommandations liées à l’exactitude formulées dans le présent rapport.
Développements récents et conclusions au titre de la LPRPDE
- Comme il est indiqué ci-dessous, OpenAI a fourni d’autres observations concernant les mesures qu’elle a mises en œuvre relativement à l’exactitude.
- Plus précisément, en réponse à notre rapport préliminaire, OpenAI a indiqué qu’elle prenait des mesures concrètes pour améliorer l’exactitude et atténuer les risques liés aux inexactitudes dans les résultats du modèle. En plus des mesures déjà en place au moment du déploiement de GPT-3.5 et GPT-4Note de bas de page 200, OpenAI a insisté sur le développement récent de son outil de filtrage qui détecte et masque les renseignements permettant d’identifier des individus dans les données Internet accessibles au public, les ensembles de données sous licence et les interactions des utilisateurs avant l’entraînement, ce qui réduit le risque que des renseignements inexacts sur des individus soient utilisés pour l’entraînement.
- OpenAI a fait valoir qu’elle a aussi récemment lancé une nouvelle fonctionnalité de recherche sur le WebNote de bas de page 201 qui, lorsqu’elle est activée, effectue une recherche en temps réel sur le Web et cite des sources Web précises utilisées pour le contenu produit par ses modèles. OpenAI a expliqué en outre que cette fonctionnalité de recherche sur le Web est automatiquement déclenchée lorsque les modèles de ChatGPT établissent que des informations plus récentes ou supplémentaires peuvent être nécessaires pour répondre à l’invite d’un utilisateur (par exemple, lorsqu’un utilisateur recherche des informations sur des actualités et des événements récents, des faits pouvant rapidement devenir périmés, ou des faits ou des renseignements vraiment précis). Les utilisateurs peuvent également activer manuellement la fonctionnalité en cliquant sur l’icône Recherche sur Internet.
- Puisque les utilisateurs peuvent consulter les sources sur lesquelles le modèle s’est appuyé pour générer sa réponse, nous croyons que cette fonctionnalité améliore l’exactitude des résultats du modèle et facilite la vérification des renseignements effectuée de façon indépendante par les utilisateurs. Cela dit, et comme l’a confirmé OpenAI, la fonctionnalité de recherche sur le Web demeure un outil distinct et facultatif. Bien qu’elle contribue à améliorer la vérifiabilité dans certains cas d’utilisation, elle n’est pas toujours activée et, par conséquent, ne répond pas entièrement à nos inquiétudes concernant l’inexactitude des résultats du modèle.
- De plus, OpenAI a indiqué avoir commencé à communiquer proactivement de l’information au sujet de ses évaluations de l’exactitude des renseignements personnels trouvés dans les résultats des modèles, au moyen de « cartes système modèles » dans un « Deployment Safety Hub (centre de sécurité de déploiement [en anglais seulement]) » (anciennement « Safety Evaluation Hub (centre d’évaluation de la sécurité [en anglais seulement]) »). OpenAI a indiqué avoir initialement utilisé l’évaluation « PersonQA », qui visait à déclencher les hallucinations de ChatGPT à l’aide d’un ensemble de données comportant des questions et des faits sur les individus qui sont accessibles au public. Cette évaluation mesurait l’exactitude du modèle en fonction des réponses qu’il fournit lorsqu’il ne peut pas faire de recherches sur le Web. Selon ces résultats, le niveau d’exactitude se situait entre 15,5 % (pour GPT-oss-20bNote de bas de page 202) et 70 % (pour GPT-4.5Note de bas de page 203), et la moyenne pour les modèles est de 41 % (GPT-3.5 et GPT-4, ainsi que GPT-5, le modèle le plus récent, n’ont pas été inclus dans la liste des modèles visés par les essais)Note de bas de page 204. Ces résultats indiquent un niveau d’exactitude relativement faible quant aux renseignements personnels figurant dans les résultats du modèle.
- OpenAI a également indiqué que, plus récemment, elle a lancé de nouvelles évaluations factuelles pour GPT-5, qui visent à de poser des questions factuelles ouvertes sur des personnes, des lieux ou des concepts, ou à inviter les modèles à produire des notices biographiques sur des personnalités importantesNote de bas de page 205. OpenAI a expliqué que les évaluations ont été effectuées en activant les paramètres permettant la navigation sur le Web et en les désactivant, et elle a affirmé que ses résultats montrent que les modèles GPT-5 ont des taux d’hallucinations nettement inférieurs dans les deux contextes. En particulier, OpenAI a remarqué que GPT-5-Thinking fait plus de cinq fois moins d’erreurs factuelles qu’OpenAI o3Note de bas de page 206, et ce, pour les deux paramètres de navigation et l’ensemble des évaluations.
GPT-5-Thinking – Taux d’hallucination Évaluation Exemple d’invite Paramètres activés Paramètres désactivés Concepts LongFacts « Quelle était la relation entre Thomas Edison et Nicola Tesla? » 0,7 % 1,1 % Objets LongFacts « Qui est Xochitl Gomez? » 0,8 % 1,4 % FActScore « Parlez-moi un peu de Samuel Oboh » 1,0 % 3,7 % - Cette information, qui a été publiée dans le document, semblerait corroborer l’affirmation voulant qu’OpenAI ait réduit la fréquence des hallucinations factuelles, notamment en ce qui concerne les renseignements personnels.
- Enfin, à la suite de discussions avec les Commissariats, OpenAI s’est engagée à inclure un lien vers la version mise à jour de son article Est-ce que ChatGPT dit la vérité? dans le billet de blogue canadien qu’elle publiera sur son site Web et dont elle fera la promotion dans les médias canadiensNote de bas de page 207. Nous croyons que cela permettra aux utilisateurs de ChatGPT de mieux connaître les limites potentielles de l’exactitude de l’outil.
- Par conséquent, nous considérons que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
Enjeu 5 : Est-ce qu’OpenAI a donné aux individus la possibilité d’accéder à leurs renseignements personnels, de les corriger et de les supprimer?
- Pour les raisons expliquées ci-dessous, nous jugeons qu’OpenAI n’a pas permis adéquatement aux individus d’accéder à leurs renseignements personnels, de les corriger et de les supprimer.
- OpenAI a indiqué que tant les utilisateurs que les autres individus dont les renseignements personnels ont pu être recueillis, utilisés et communiqués par l’intermédiaire de ses modèles sont informés de leurs droits en matière de vie privée au moyen de sa politique de confidentialité et qu’ils peuvent exercer certains de ces droits par l’entremise des outils libre-service offerts dans les paramètres de compte OpenAI. Si un individu n’est pas en mesure de le faire, il est invité à soumettre sa demande par le portail de demandes relatives à la confidentialité d’OpenAI ou par courriel.
- Pour établir si les pratiques employées par OpenAI pour traiter ces demandes sont conformes aux Lois, nous examinons ci-dessous les différentes situations où des utilisateurs de ChatGPT et d’autres individus choisir d’exercer leurs droits d’accéder à leurs renseignements personnels, de les faire corriger ou de les supprimer.
Enjeu 5A : Accès aux renseignements personnels
- Les Lois prévoient que, s’il en fait la demande à une organisation, un individu doit être informé de l’existence de renseignements personnels à son sujet, de l’usage qui en est fait et du fait qu’ils ont été communiqués à des tiers, et il doit pouvoir les consulter. En outre, l’organisation doit informer l’individu concerné de l’usage qu’elle fait ou a fait des renseignements et des tiers à qui ils ont été communiquésNote de bas de page 208.
- Les Lois prévoient aussi qu’une organisation doit faire en sorte que de l’information précise sur ses politiques et ses pratiques concernant la gestion des renseignements personnels, y compris les façons d’accéder aux renseignements personnels qu’elle détient, soit facilement accessible. Un individu doit pouvoir obtenir sans efforts déraisonnables de l’information au sujet des politiques et des pratiques d’une organisation, et cette information doit être fournie sous une forme généralement compréhensibleNote de bas de page 209.
- Selon les principes de l’IA générative, les développeurs et les fournisseurs d’IA générative doivent s’assurer que des procédures sont en place pour que les individus puissent consulter et corriger tout renseignement à leur sujet qui a été recueilli dans le cadre de leur utilisation du système. Ils doivent aussi établir des processus pour permettre aux individus de consulter ou de corriger tout renseignement personnel contenu dans un modèle d’IA, surtout si ce renseignement peut être inclus dans des résultats générés en réponse à une invite.
- OpenAI a indiqué que i) dans la grande majorité des cas, des individus demandent l’accès aux renseignements personnels associés à leur compte d’utilisateur de ChatGPT; et ii) dans des cas exceptionnels, les individus demandent précisément l’accès à leurs renseignements personnels qui se trouvent dans les données d’entraînement. Nous examinons les deux types de demandes ci-dessous.
Accès aux renseignements personnels liés à un compte ChatGPT
- OpenAI a indiqué que les utilisateurs qui ouvrent une session dans leur compte ChatGPT peuvent utiliser un outil d’exportation pour obtenir une copie des données les concernant, notamment les renseignements sur leur compte et l’historique de leurs interactions avec ChatGPT.
- Comme il est expliqué plus loin, notre analyse de l’outil « Exporter les données » d’OpenAI a confirmé qu’il ne respecte pas totalement les obligations en matière d’accès prévues par les Lois.
- L’outil « Exporter les données » se trouve sous Paramètres > Commandes des données, sur l’interface ChatGPT. Après avoir confirmé leur demande d’exportation, les utilisateurs reçoivent un courriel contenant un lien vers leurs données; ce lien est valide pendant 24 heures. Les utilisateurs sont ensuite invités à télécharger un « fichier. zipNote de bas de page 210 » qui comprend l’historique de leurs interactions avec ChatGPT ainsi que d’autres données contenues dans les dossiers d’OpenAI (par exemple, l’identifiant d’utilisateur généré par ChatGPT, l’adresse courriel et les métadonnées associées à leurs conversations avec ChatGPT, comme les titres et l’heure de création).
- En principe, nous croyons qu’un outil libre-service bien conçu peut constituer un mécanisme initial utile pour permettre aux utilisateurs d’accéder à leurs renseignements personnels, et qu’un tel outil peut répondre aux besoins d’une majorité d’individus, même si l’outil n’est pas suffisant pour respecter toutes les obligations prévues par les Lois liées au droit d’accès des individus. Toutefois, dans le cas de l’outil « Exporter les données » de ChatGPT, nous avons constaté plusieurs problèmes, qui sont décrits ci-dessous.
- D’abord, le format de certains extraits de données fournis aux utilisateurs par l’outil « Exporter les données » n’est ni convivial ni facile à parcourir. Ainsi, les noms des fichiers sont formés de termes techniques et peuvent porter à confusion (par exemple, « model_comparisons.json »). De plus, une partie des données est présentée en format. json, un type de fichier difficile à lire (voir la saisie d’écran ci-dessous – figure 5), dont le téléchargement et l’ouverture requièrent certaines connaissances techniques. Ces données ne sont donc pas facilement accessibles par le grand public.
Figure 5. Extraction de données exportées (fichier. json)Note de bas de page 211 - Ensuite, comme nous n’arrivions pas à comprendre certains des renseignements fournis, nous ne pouvions être certains que les données obtenues contenaient tous les renseignements personnels qu’OpenAI possède sur un utilisateur donné. Dans tous les cas, nous avons constaté que l’outil ne donne à l’utilisateur aucune information concernant des tiers à qui ses renseignements auraient pu être communiqués et qu’il ne précise pas si des renseignements personnels ont été retirés des résultats (par exemple, des renseignements exemptés des obligations en matière d’accès prévues par les Lois).
- Troisièmement, nous observons qu’il est possible de demander l’accès à d’autres données que celles fournies par l’intermédiaire de l’outil « Exporter les données », mais qu’il n’est pas simple de le faire. Les utilisateurs qui lisent la politique de confidentialité sont invités à soumettre une demande par courriel s’ils ne sont pas en mesure d’exercer leurs droits en matière de vie privée en passant par leur compte. OpenAI a déclaré que si un utilisateur communique avec elle par courriel pour demander l’accès à ses renseignements, il sera invité à utiliser l’outil « Exporter les données ». Nous soulignons que c’est seulement si le titulaire du compte communique de nouveau avec OpenAI, par le portail de demandes relatives à la confidentialité ou par courriel, parce qu’il est insatisfait des résultats de l’outil « Exporter les données » qu’OpenAI acheminera sa demande à l’équipe de soutien afin qu’elle soit examinée.
- Toutefois, nous avons observé que, même si le courriel envoyé aux utilisateurs par l’intermédiaire de l’outil « Exporter les données » mentionne la possibilité de communiquer avec OpenAI en passant par son centre d’aide en cas de questions, il n’informe pas les utilisateurs des méthodes officielles auxquelles ils peuvent recourir s’ils souhaitent contester l’exhaustivité, l’exactitude ou la nature des renseignements fournis par l’outil. Il est donc possible que les utilisateurs ne soient pas au courant de cette solution de rechange ou ne pensent pas à l’utiliser.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, nous jugeons qu’OpenAI ne donnait pas aux individus la possibilité d’exercer pleinement leur droit d’accéder à leurs renseignements personnels liés à leur compte de ChatGPT, contrevenant ainsi à l’article 4.9 du neuvième principe figurant à l’annexe 1 de la LPRPDE, à l’article 24 de la PIPA de l’Alberta, à l’article 23 de la PIPA de la Colombie-Britannique, et aux articles 27 et 29 de la LPRPSP du Québec.
Développements récents et conclusions au titre de la LPRPDE
- En réponse à notre rapport préliminaire, OpenAI a indiqué qu’elle a amélioré le courriel de réponse automatique que les utilisateurs reçoivent lorsqu’ils soumettent à OpenAI une demande d’accès par courriel (à l’adresse dsar@openai.com). Cette réponse explique maintenant comment il est possible d’accéder à différents types de renseignements personnels. Alors que le courriel indique que la plupart des données personnelles de l’utilisateur peuvent être obtenues directement à partir des paramètres de son compte ou par l’intermédiaire du portail de confidentialité, il explique également aux utilisateurs qu’ils peuvent répondre au courriel s’ils ont d’autres questions ou besoins qui nécessitent une réponse.
- À la suite de discussions avec les Commissariats, et comme il est expliqué plus en détail dans la section relative à la réponse d’OpenAI à notre rapport préliminaire (voir le paragraphe 549), OpenAI s’est engagée à mettre en œuvre d’autres mesures relatives aux demandes d’accès, soit les mesures suivantes :
- Elle utilisera un format plus accessible et plus convivial pour présenter les renseignements personnels dans ses exportations de données.
- Elle révisera les renseignements qu’elle communique aux utilisateurs qui souhaitent exporter des données afin de les informer des moyens qui leur sont offerts s’ils souhaitent remettre en question l’exhaustivité, l’exactitude ou la nature des renseignements fournis.
- Compte tenu de ce qui précède, nous estimons que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
Accès aux renseignements personnels contenus dans les ensembles de données d’entraînement d’OpenAI
- En ce qui a trait aux renseignements personnels contenus dans ses ensembles de données d’entraînement, OpenAI a affirmé qu’elle n’y donne accès que si elle est en mesure de vérifier qu’ils sont liés directement et uniquement au demandeur, notamment au moyen de l’adresse courriel ou du numéro de téléphone. OpenAI n’a pas fourni aux Commissariats d’autres exemples d’identifiants qu’elle pouvait utiliser pour vérifier le lien entre le demandeur et les renseignements. Cela dit, OpenAI a expliqué qu’elle peut effectuer des examens limités pour une gamme de renseignements permettant d’établir l’identité d’un individu, pourvu que les renseignements fournis soient précis et vérifiables afin qu’ils puissent être associés de façon fiable à l’individu qui fait la demande et afin de prévenir la communication de données au mauvais individu.
- OpenAI a expliqué aux Commissariats que si le lien entre le demandeur et les renseignements personnels demandés ne peut être établi, par exemple lorsque le demandeur porte un nom courant ou qu’il n’existe aucun autre moyen de vérifier que les renseignements le concernent (par exemple, au moyen d’une adresse courriel ou d’un numéro de téléphone, comme il est mentionné ci-dessous), elle se contentera d’indiquer au demandeur si son nom figure dans ses ensembles de données d’entraînement. OpenAI affirme que, dans ces situations, étant donné le volume et l’absence de structure des données dans ses ensembles de données, elle n’est pas en mesure d’établir avec un degré de certitude raisonnable et sans efforts ni délais disproportionnés si les renseignements concernent bien le demandeur ou plutôt un autre individu qui aurait le même nom.
- De plus, OpenAI a expliqué que le processus pour confirmer l’inclusion de renseignements vérifiés dans ses ensembles de données d’entraînement est en soi extrêmement complexe et difficile pour les raisons suivantes :
- En raison de la nature non structurée des données d’entraînement, il n’y a pas de répertoire pour rechercher et récupérer toutes les données concernant un individu; la recherche de renseignements vérifiés ne consiste donc pas simplement à exécuter des requêtes préexistantes ou à accéder à une base de données centralisée. Elle nécessite des flux de travail personnalisés qui doivent être manuellement adaptés à l’architecture de données d’OpenAI.
- Vérifier la présence de renseignements personnels précis dans l’ensemble de données d’entraînement nécessite des ressources importantes et représente un effort considérable sur le plan de la charge de travail et de la puissance de calcul.
- Toute recherche dans l’ensemble de données d’entraînement est limitée par la nécessité d’éviter de communiquer des données relatives à des individus autres que l’individu qui a fait la demande, ce qui aurait une incidence sur leur droit à la vie privée. À titre d’exemple concret, le mot qui suit un renseignement permettant d’établir l’identité d’un individu (qui pourrait être inclus dans les données non structurées) peut ne pas avoir de lien avec ce renseignement, ou même inclure les renseignements personnels d’autres individus qui portent le même nom.
- Bien que nous reconnaissions que la conception des modèles d’OpenAI et la nature des données qu’elle recueille pour entraîner ces modèles posent des défis techniques, notamment pour ce qui est de l’authentification du demandeur et de la récupération des renseignements qui le concernent afin de traiter sa demande, nous avons constaté que, dans le contexte où OpenAI recueillait, utilisait et communiquait de vastes quantités de renseignements personnels, y compris des renseignements sensibles, sans avoir mis en place des mesures d’atténuation rigoureuses pour limiter les renseignements recueillis, elle n’en faisait pas assez pour se conformer à ses obligations en matière d’accès prévues par les Lois.
- Cela était d’autant plus important dans un contexte où les individus n’étaient souvent pas au courant que des renseignements les concernant avaient été recueillis par OpenAI pour entraîner ses modèles GPT-3.5 et GPT-4, et encore moins qu’ils pourraient être communiqués ou utilisés dans les réponses de ChatGPT.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, nous jugeons qu’OpenAI ne donnait pas aux individus la capacité d’accéder à leurs renseignements personnels inclus dans les ensembles de données d’entraînement de GPT-3.5 et GPT-4, conformément à l’article 4.9 du neuvième principe figurant à l’annexe 1 de la LPRPDE, à l’article 24 de la PIPA de l’Alberta, à l’article 23 de la PIPA de la Colombie-Britannique, et aux articles 27 et 29 de la LPRPSP du Québec.
Développements récents et conclusions au titre de la LPRPDE
- Comme nous l’avons vu précédemment, OpenAI a expliqué en réponse à notre rapport préliminaire qu’elle a développé un outil de filtrage interne qui détecte et masque les renseignements personnels dans les ensembles de données d’entraînement. Bien que nous notions qu’OpenAI recueille et conserve toujours des données brutes non filtrées, nous acceptons que cette mesure puisse réduire considérablement l’utilisation et le traitement des renseignements personnels associés à l’entraînement des futurs modèles.
- De plus, même si OpenAI n’a pas fourni de statistiques récentes aux Commissariats, elle a indiqué que les demandes d’accès aux renseignements personnels présents dans les données d’entraînement ne sont présentées qu’à titre exceptionnel. Bien que nous reconnaissions que, en raison des défis techniques décrits précédemment, OpenAI pourrait ne pas être en mesure de répondre à un sous-ensemble de ce petit nombre de demandes d’accès, nous constatons également que, lorsqu’OpenAI ne peut associer de façon unique des renseignements à un individu, il est possible que ceux-ci ne soient pas les renseignements personnels de cet individuNote de bas de page 212. Dans ces circonstances, nous croyons que le risque de préjudices pour la vie privée résultant de l’incapacité d’OpenAI à fournir certains renseignements relatifs à un individu qui sont contenus dans ses ensembles de données non structurés est limité.
- Par conséquent, en tenant compte des nouvelles mesures d’atténuation d’OpenAI, et conformément à l’approche pragmatique et souple de l’interprétation de la LPRPDE (dont il est question au paragraphe 46) et de la nécessité de tenir compte du droit à la vie privée des individus et du besoin des entreprises d’utiliser des renseignements personnels à des fins appropriées, le CPVP estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDENote de bas de page 213.
- Cette conclusion est fondée sur notre compréhension qu’OpenAI continuera de mobiliser des ressources et de l’énergie à la recherche de solutions qui atténuent davantage le risque pour la vie privée dans les domaines où l’accès n’est pas pratique ou possible.
Enjeu 5B : Correction des renseignements personnels
- Les Lois prévoient qu’un individu doit pouvoir contester l’exactitude et l’intégralité des renseignements le concernant et y faire apporter les corrections appropriéesNote de bas de page 214.
- Notre enquête nous a permis de constater qu’un individu peut demander à OpenAI de corriger ses renseignements personnels contenus dans les ensembles de données d’entraînement de la société ou dans les résultats de ChatGPT, soit par le portail de demandes relatives à la confidentialité d’OpenAI, soit par courriel.
- OpenAI a déclaré que, si elle peut vérifier que les renseignements personnels concernent bien le demandeur (comme il est précisé dans la section sur l’enjeu 5A ci-dessus), elle utilisera les renseignements fournis par le demandeur pour vérifier si le modèle produit les renseignements mentionnés par un individu dans sa demande.
- Si elle confirme que le modèle a produit ces renseignements, elle effectuera une évaluation au cas par cas de ces renseignements en fonction de divers facteurs (y compris si l’individu est une personnalité publique) avant de mettre en œuvre une mesure corrective. OpenAI a fait valoir qu’elle demande aux individus de fournir suffisamment de précisions pour établir l’inexactitude, y compris des liens vers des clavardages et des URL mentionnées dans les clavardages, ainsi que suffisamment de précisions pour prouver que les renseignements communiqués par ChatGPT à leur sujet dans sa réponse sont inexacts. Quand des individus différents ont le même nom, OpenAI en tient compte dans son évaluation au cas par cas.
- Si les renseignements s’avèrent inexacts, OpenAI a indiqué qu’elle pourrait tenter d’affiner les modèles pour corriger les inexactitudes. Toutefois, s’il n’est pas possible de corriger l’inexactitude en raison de défis techniques (dont il est question plus loin), OpenAI empêchera les renseignements personnels en question d’apparaître dans les résultats de ChatGPT, assurant ainsi qu’il y a eu une vérification que les renseignements du demandeur ne sont plus générés. Pour ce faire, les renseignements personnels vérifiés des individus (comme leur nom) sont ajoutés à une liste de blocage. Les filtres d’entrée et de sortie sont utilisés pour détecter quand ces renseignements sont inclus soit dans les invites des utilisateurs de ChatGPT, soit dans les résultats de ChatGPT. Cela empêche ChatGPT de répondre aux requêtes portant sur les renseignements personnels vérifiés de l’individu (comme son nom) ou d’afficher les renseignements personnels vérifiés dans les résultats.
- OpenAI a expliqué que les défis techniques que la société rencontrait lorsqu’elle tentait de corriger les inexactitudes sont liés à la complexité de la façon dont ses modèles fonctionnent. Nous comprenons qu’il peut être difficile, voire presque impossible, pour OpenAI de garantir qu’à aucun moment un résultat de ChatGPT ne comprendra un renseignement qui s’est avéré inexact. Cela s’explique, du moins en partie, par le fait que les résultats de ChatGPT ne proviennent pas d’une base de données de faits pouvant être facilement corrigés; ils sont basés sur un grand nombre de corrélations statistiques entre des mots (ou des portions de mots) qui peuvent, dans certaines situations, produire des renseignements personnels inexacts. Dans ces situations, la seule solution viable pourrait donc être d’empêcher la communication de renseignements personnels relatifs au demandeur.
- Bien que nous reconnaissions les efforts d’OpenAI pour fournir une solution pragmatique aux demandes de correction des renseignements malgré les défis techniques présentés ci-dessus, cette approche n’est pas sans faille. Par exemple, lorsqu’OpenAI n’est pas en mesure de vérifier que les renseignements personnels concernent bien le demandeur, entre autres dans les circonstances énoncées dans la section consacrée à l’accès ci-dessus, OpenAI ne corrige ou ne bloque pas les renseignements en question. De plus, OpenAI n’a fourni aucune preuve relative à la proportion de demandes où elle peut identifier le demandeur et le relier aux renseignements en question, soulevant simplement le fait qu’il est souvent difficile de le faire.
Constatations liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, nous jugeons qu’OpenAI ne donnait pas aux individus la capacité de corriger leurs renseignements personnels inclus dans les ensembles de données d’entraînement et les résultats de GPT-3.5 et GPT-4, conformément à l’article 4.9 du neuvième principe figurant à l’annexe 1 de la LPRPDE, à l’article 25 de la PIPA de l’Alberta, à l’article 24 de la PIPA de la Colombie-Britannique et aux articles 28 et 29 de la LPRPSP du Québec.
Développements récents et conclusions au titre de la LPRPDE
- Comme nous l’avons vu précédemment, OpenAI a expliqué en réponse à notre rapport préliminaire qu’elle a développé un nouvel outil de filtrage interne qui détecte et masque les renseignements personnels dans les ensembles de données d’entraînement. Nous reconnaissons que cette mesure peut réduire le risque que des renseignements personnels inexacts soient utilisés pour l’entraînement de modèles et potentiellement communiqués dans les résultats des modèles.
- De plus, OpenAI a indiqué avoir récemment mis en œuvre une nouvelle mesure qui facilite le traitement des demandes de correction. Lorsqu’un individu soumet une demande de correction, OpenAI peut tirer parti de ses capacités de recherche sur le Web en réponse aux invites le concernant pour inciter les modèles à effectuer des recherches visant l’obtention sur Internet de renseignements accessibles au public et à jour sur cet individu. OpenAI a affirmé que cela permet de réellement réduire le risque que des renseignements inexacts apparaissent dans les résultats du modèle.
- En ce qui concerne les défis techniques associés aux demandes de correction, nous acceptons que la mise en place de cette nouvelle mesure, ainsi que les autres mesures d’atténuation d’OpenAINote de bas de page 215, offre aux individus un mécanisme adéquat pour corriger leurs renseignements personnels contenus dans les résultats du modèleNote de bas de page 216.
- OpenAI a également expliqué qu’elle avait développé une solution technique pour tenir compte des situations où il existe un intérêt public à communiquer davantage de renseignements sur une personnalité publique, conformément au droit à la liberté d’expression et au droit à l’information, mais que les intérêts de l’individu prévalent en ce qui concerne un renseignement personnel donné (par exemple, parce que ChatGPT fournit une réponse inexacte pour ce renseignement). Dans cette situation, OpenAI peut maintenant bloquer de façon granulaire certains renseignements personnels sur une personnalité publique dans les résultats, tout en faisant en sorte que ceux-ci comprennent des renseignements exacts sur cette personne. Nous reconnaissons qu’un blocage ciblé semble être un développement positif dans les circonstances.
- Par conséquent, nous estimons que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
- Cette conclusion est fondée sur notre compréhension qu’OpenAI continuera de mobiliser des ressources et de l’énergie à la recherche de solutions qui atténuent davantage le risque pour la vie privée dans les domaines où une correction n’est pas pratique ou possible.
Enjeu 5C : Retrait de renseignements personnels des modèles d’OpenAI
- Les lois canadiennes en matière de protection des renseignements personnels n’accordent pas aux individus le droit explicite de demander la suppression de renseignements les concernantNote de bas de page 217. Cependant, les Lois prévoient qu’un individu peut en tout temps retirer son consentement à la collecte, à l’utilisation et à la communication des renseignements personnels à son sujet, sous réserve de restrictions prévues par une loi ou un contrat et d’un préavis raisonnableNote de bas de page 218. Elles prévoient aussi qu’une organisation ne doit conserver les renseignements personnels qu’aussi longtemps que nécessaire pour la réalisation des fins déterminéesNote de bas de page 219. Ainsi, si une organisation n’a ni le consentement de l’individu ni aucune assise légale pour conserver les renseignements personnels, elle doit les supprimer.
- OpenAI a déclaré que, même si les recherches dans ce domaine continuent de progresser, il n’est pas possible actuellement de « rétro-entraîner » les GML de façon à ce qu’ils tiennent compte de la suppression des renseignements, car ils ne stockent pas de copies des renseignements sur lesquels ils sont basés. OpenAI a expliqué que les modèles sont entraînés en apportant des modifications répétées à des milliards de pondérations (paramètres) au cours d’exécutions successives visant les ensembles de données d’entraînement, et que chaque étape dépend des étapes précédentes. Par conséquent, l’influence de tout point de données donné n’est pas préservée de façon isolée, mais elle est plutôt diffusée et combinée à l’échelle de l’ensemble des pondérations du modèle par des modifications subséquentes qui ne peuvent être isolées après coup. OpenAI a ajouté que, même si l’influence d’un seul point de données par rapport à un paramètre pouvait être décelée, les modèles ChatGPT ne contiennent aucun répertoire ou dossier permettant d’établir lequel des points de données a eu une incidence sur un changement visant un paramètre.
- Par conséquent, OpenAI a expliqué que, lorsqu’elle reçoit une demande de suppression de renseignements personnels vérifiés, elle les empêche d’apparaître dans les résultats de ChatGPT et les filtre lors des entraînements suivants.
- De plus, OpenAI a affirmé que, lorsqu’elle évalue comment répondre à une demande de suppression, elle cherche à trouver un équilibre entre le droit à la confidentialité et à la protection des données et d’autres intérêts publics (comme l’accès public à l’information), dans le respect des lois applicables. OpenAI a aussi expliqué qu’elle peut refuser de retirer des renseignements personnels de ses résultats si elle juge qu’ils concernent une personnalité publique (par exemple, une célébrité ou une personne de la scène politique); OpenAI se base sur la visibilité d’une personne sur Internet (en général sous la forme d’une page Wikipédia) pour établir s’il s’agit d’une figure publique. Si les renseignements sont liés au personnage public (par exemple, des renseignements dont la personne a parlé publiquement), OpenAI a souligné qu’elle a alors tendance à privilégier l’accès public à l’information et à refuser de les supprimer. Nous n’avons pu obtenir de preuve suffisante à cet égard pour évaluer l’efficacité ou la pertinence de ce processus.
- Dans tous les cas, comme pour les demandes d’accès et de correction, OpenAI a confirmé qu’elle ne prendra les mesures décrites ci-dessus que si elle est en mesure de confirmer que les renseignements personnels concernent uniquement le demandeur, ce qui, comme il est mentionné ci-dessus, n’est souvent pas possible. Cette situation est problématique compte tenu du fait qu’OpenAI a recueilli les renseignements personnels sans en être autorisée par la loi.
- Nous constatons également qu’OpenAI n’est souvent pas en mesure de supprimer les renseignements personnels des modèles existants. Bien qu’elle puisse à la place empêcher, dans certaines circonstances (c’est-à-dire en utilisant une liste de blocage comme il est décrit au paragraphe 489, après avoir effectué un examen des résultats et une évaluation au cas par cas), que les renseignements personnels soient communiqués dans les résultats des modèles, elle ne le fera pas si elle ne peut pas confirmer que ces renseignements concernent uniquement le demandeur, ce qui n’est souvent pas possible.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Par conséquent, nous concluons qu’OpenAI n’a pas donné aux individus la possibilité de retirer leur consentement et de faire en sorte que leurs renseignements personnels soient supprimés conformément à l’article 4.9 du neuvième principe figurant à l’annexe 1 de la LPRPDE, aux paragraphes 9(1) et 9(4), et à l’article 35 de la PIPA de l’Alberta, aux articles 9 et 35 de la PIPA de la Colombie-Britannique et aux articles 28.1 et 29 de la LPRPSP du Québec.
Développements récents et conclusions au titre de la LPRPDE
- Comme il a été mentionné précédemment, OpenAI a expliqué en réponse à notre rapport préliminaire qu’elle a développé un outil de filtrage interne qui détecte et masque les renseignements personnels dans les ensembles de données d’entraînement. Nous reconnaissons que cette mesure peut réduire considérablement le risque que des renseignements personnels inexacts soient utilisés pour l’entraînement de modèles et potentiellement communiqués dans les résultats des modèles, limitant ainsi le besoin de demander ultérieurement la suppression de renseignements et réduisant la portée de telles demandes.
- OpenAI a également indiqué qu’elle était maintenant en mesure de bloquer de façon granulaire certains renseignements personnels concernant une personnalité publique afin qu’ils n’apparaissent pas dans les résultats, tout en faisant en sorte que ceux-ci comprennent des renseignements exacts sur cet individu. À cet égard, OpenAI indique qu’elle peut veiller à continuer de fournir au public un accès aux renseignements sur les personnalités publiques qui les intéressent, tout en veillant à ce que les personnalités publiques puissent se prévaloir de leur droit à la vie privée. Nous reconnaissons qu’un blocage plus ciblé constitue une amélioration.
- De façon plus générale, nous sommes d’avis que, compte tenu des défis techniques décrits précédemment, la combinaison des diverses mesures d’atténuation mises en œuvre par OpenAINote de bas de page 220 offre maintenant aux individus un mécanisme adéquat pour demander la suppression de leurs renseignements personnels contenus dans les résultats et les ensembles de données d’entraînement des modèlesNote de bas de page 221.
- Le CPVP estime donc que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
- Cette conclusion est fondée sur notre compréhension qu’OpenAI continuera de mobiliser des ressources et de l’énergie à la recherche de solutions qui atténuent davantage le risque pour la vie privée dans les domaines où une suppression complète n’est pas pratique ou possible.
Enjeu 6 : OpenAI a-t-elle établi des procédures appropriées de conservation et de retrait des renseignements personnels qu’elle recueille, utilise et communique?
Analyse au titre de la LPRPDE, de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta
- Pour les raisons décrites plus loin, nous constatons qu’OpenAI n’a pas établi de politiques et de procédures appropriées de conservation et de retrait des renseignements personnels qu’elle a recueillis, utilisés et communiqués aux fins de développement et de déploiement de ses modèles GPT-3.5 et GPT-4.
- Les Lois prévoient que les organisations doivent détruire, ou dépersonnaliser ou anonymiser les renseignements personnels (selon la loi) dont elles n’ont plus besoin aux fins préciséesNote de bas de page 222.
- L’article 4.5.2 du cinquième principe figurant à l’annexe 1 de la LPRPDE prévoit expressément que les organisations devraient élaborer des lignes directrices et appliquer des procédures pour la conservation des renseignements personnels, et que ces lignes directrices devraient préciser les durées minimales et maximales de conservation.
- De même, selon les principes de l’IA générative, les développeurs et les fournisseurs d’IA générative devraient établir et suivre des calendriers appropriés de conservation des renseignements personnels, y compris, s’il y a lieu, les renseignements personnels qui se trouvent dans les données d’entraînement, les invites du système et les résultats. Ces calendriers devraient à la fois i) limiter la conservation des renseignements qui ne sont plus requis et ii) permettre que les renseignements soient conservés suffisamment longtemps pour que les personnes puissent exercer leur droit d’accès (en particulier lorsqu’une décision a été prise à leur sujet).
- Enfin, dans son document intitulé Conservation et retrait des renseignements personnels : Principes et pratiques exemplaires, le CPVP recommande que les organisations envisagent la possibilité de procéder au retrait de manière sécuritaire si le fait de conserver les renseignements personnels plus longtemps risque de causer un préjudice à la personne concernée, voire d’augmenter le risque d’une éventuelle atteinte à la sécurité des renseignements personnels et l’exposition à une telle atteinte.
- Pendant la phase de collecte des éléments de preuve de notre enquête, OpenAI a déclaré que, bien qu’elle ait des politiques de gestion des données relatives aux renseignements commerciaux sensibles, aux secrets commerciaux ou aux données sur la clientèle, il lui restait encore à établir le détail de sa politique officielle de conservation et de suppression des renseignements personnels. Par conséquent, nous n’avons pas été en mesure de bien examiner les pratiques de conservation pour tous les renseignements personnels que la société recueille, utilise et communique.
- Néanmoins, OpenAI a expliqué que, pendant que la version de sa politique officielle de conservation et de suppression des renseignements personnels était encore en voie d’être achevée, elle avait mis en place des règles précises pour la conservation de diverses catégories de renseignements personnels.
- Par exemple, si un utilisateur supprime son compte ou désactive l’historique de ses conversations, OpenAI supprimera les renseignements ou les conversations liés au compte dans un délai de 30 jours, sauf dans certains cas liés à des fins de lutte contre la fraude, de conformité aux lois ou à d’autres fins semblables. Pour ce qui est des conversations utilisées pour entraîner ses modèles, OpenAI a expliqué qu’elle les filtre afin qu’elles ne contiennent pas de renseignements d’identification personnelle, qu’elle les dissocie des comptes des utilisateurs et qu’elle les conserve pendant au maximum trois ans. La société a aussi mentionné qu’elle réévalue périodiquement si les données qu’elle conserve sont toujours nécessaires.
- Toutefois, OpenAI a affirmé qu’elle n’a pas de calendrier de conservation des données brutes non structurées provenant de sites Web accessibles au public. Ces données, qui sont censées être filtrées pour créer des ensembles de données d’entraînement (c’est-à-dire au moyen de la suppression de certains sites Web, de la déduplication de sites Web et, plus récemment, du filtrage des renseignements d’identification personnelle, comme il a été mentionné précédemment dans le présent rapport), sont conservées « aussi longtemps qu’il est nécessaire pour entraîner des itérations successives des modèles d’OpenAI ».
- Selon OpenAI, cette façon de faire est essentielle dans le contexte de l’IA, car elle permet la reproductibilité (c’est-à-dire l’exécution d’entraînements avec des ensembles de données connues et constantes et des paramètres différents afin d’évaluer les différents résultats), les contrôles (c’est-à-dire l’examen des données utilisées pour entraîner les modèles afin de déterminer leurs répercussions) et l’affinement (c’est-à-dire l’affinement et l’amélioration des techniques de filtrage à chaque exécution d’entraînement), des principes qui, selon la société, sont fondamentaux en recherche scientifique.
- Nous constatons que la conservation des renseignements personnels plus longtemps que nécessaire peut augmenter le risque de préjudice à l’endroit d’un individu en cas d’atteinte à la vie privée, particulièrement s’il s’agit de renseignements sensibles, inexacts ou désuets qui ont été recueillis sans consentement approprié. Comme il est mentionné ci-dessus, les données d’entraînement filtrées qu’utilise OpenAI contiennent inévitablement des renseignements personnels, notamment certains qui peuvent être sensibles. De plus, comme ces données ont été recueillies au fil de nombreuses années, il est fort probable qu’elles comportent des pages Web qui ont été soient supprimées, soient mises à jour depuis leur extraction initiale. Les ensembles de données brutes pourraient comprendre du contenu piraté ou préjudiciable ainsi que du contenu provenant de sites Web pour adultes ou de sites Web qui regroupent des renseignements personnels sur des individus. OpenAI a indiqué que ces données sont ensuite filtrées pour créer les ensembles de données d’entraînement.
- OpenAI et d’autres sociétés d’IA générative détiennent d’énormes ensembles de données qui peuvent être attrayants pour d’éventuels acteurs malveillants, ce qui ajoute au risque existant d’atteintes à la protection des données et d’autres menaces à la sécurité.
- En outre, bien qu’OpenAI ait déclaré qu’elle a déjà établi un processus de réévaluation périodique de ses pratiques de conservation des données d’entraînement, elle ne nous a fourni aucun élément probant, comme des exemplaires de ses politiques internes, qui nous aurait permis d’établir si ce processus est suffisamment officialisé.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Ainsi, nous jugeons qu’OpenAI a contrevenu aux articles 4.5, 4.5.2 et 4.5.3 du cinquième principe figurant à l’annexe 1 de la LPRPDE, à l’article 35(2) de la PIPA de la Colombie-Britannique, et au paragraphe 35(2) de la PIPA de l’Alberta.
Développements récents et conclusions au titre de la LPRPDE
- En réponse à notre rapport préliminaire, OpenAI a expliqué qu’elle a maintenant i) élaboré et mis en œuvre de façon officielle une « politique de conservation et de suppression des données personnelles », qui décrit les règles précises régissant la conservation et la suppression des renseignements personnels traités en lien avec ChatGPT; et ii) adopté un « calendrier de conservation des données clients » qui définit des périodes de conservation pour les catégories précises de renseignements personnels recueillis auprès des utilisateurs de sa plateforme.
- En ce qui concerne les données d’entraînement non structurées, OpenAI a fait valoir qu’elle a mis en œuvre des critères de conservation définis en se basant sur les principes fondamentaux présentés précédemment (c’est-à-dire reproductibilité, contrôle et affinement). OpenAI a expliqué que, sur la base de ces critères, une fois qu’elle a établi qu’un ensemble de données n’est plus nécessaire pour l’entraînement actif ou la recherche visant la reproductibilité, il est obsolète. Une fois que l’ensemble de données est obsolète et inactif, OpenAI ne l’utilise pas pour le développement continu du modèle et le conserve uniquement comme référence historique à des fins d’intégrité scientifique, notamment pour démontrer la validité de recherches antérieures. OpenAI a également indiqué qu’elle stocke les données brutes sous-jacentes en leur attribuant un état verrouillé; elles sont stockées ainsi dans des archives sécurisées dont l’accès est contrôlé, et seul un petit groupe d’employés a accès à ces données.
- Le CPVP estime qu’il est possible que l’approche qui consiste à isoler les données, à sécuriser et à limiter l’accès à celles-ci, et à les utiliser uniquement à des fins d’intégrité scientifique peut être raisonnable pour les ensembles de données futurs recueillis de façon légitime, pourvu que :
- des mesures de protection rigoureuses soient en place pour veiller à ce que ces ensembles de données soient utilisés uniquement à ces fins et non à des fins de développement de modèles;
- les ensembles de données ne servent plus au développement du modèle (c’est-à-dire qu’ils sont isolés) dès qu’OpenAI juge qu’ils ne sont plus nécessaires à cette fin;
- les droits des individus concernés continuent de s’appliquer à ces ensembles de données isolés, dans la mesure où ils contiennent des renseignements personnels;
- OpenAI réévalue régulièrement si la conservation de chaque ensemble de données demeure nécessaire selon les critères établis.
- OpenAI s’est engagée à veiller à la mise en œuvre des mesures énumérées ci-dessus et à poursuivre cette mise en œuvre.
- Par conséquent, le CPVP estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
Analyse au titre de la LPRPSP du Québec
- L’article 3.2 de la LPRPSP du Québec prévoit que toute personne qui exploite une entreprise doit établir et mettre en œuvre des politiques et des pratiques qui assurent la protection des renseignements personnels et que celles-ci doivent notamment prévoir l’encadrement applicable à la conservation et à la destruction de ces renseignements.
- À cet égard, la CAI constate que les politiques et les pratiques d’OpenAI en matière de conservation des renseignements personnels n’étaient pas conformes à l’article 3.2 de la LPRPSP du Québec. En revanche, la CAI prend acte du fait qu’OpenAI a, en cours d’enquête, élaboré une politique officielle de conservation et de suppression des données personnelles et adopté un calendrier de conservation des données clients, le tout tel qu’il est décrit au paragraphe 525.
- En dépit de ces nouvelles mesures, l’article 23 de la LPRPSP du Québec prévoit que lorsque les fins auxquelles un renseignement personnel a été recueilli ou utilisé sont accomplies, la personne qui exploite une entreprise doit le détruire ou l’anonymiser pour l’utiliser à des fins sérieuses et légitimes.
- Dans ses commentaires, OpenAI a précisé que sa pratique relative à la conservation des données d’entraînement, telle qu’elle a été décrite aux paragraphes 519 et 520, était directement liée à la fin communiquée lors de la collecte des renseignements personnels qu’elle effectuait auprès de ses utilisateurs. Afin d’aller dans le même sens que cet argument, la CAI estime que l’information transmise aux utilisateurs lors de la collecte par OpenAI devrait être précise.
- OpenAI indique que conformément à l’article 8 alinéa 3 de la LPRPSP du Québec elle fournit aux utilisateurs, sur demande, la durée de conservation des renseignements qu’elle recueille. En revanche, la CAI estime que cette information fournie sur demande ne rend pas la pratique de conservation d’OpenAI conforme à l’article 23 de la LPRPSP du Québec et que les utilisateurs devraient être informés précisément de l’ensemble des fins pour lesquels les renseignements sont recueillis, et ce, lors de la collecte de ceux-ci.
- Comme les utilisateurs de ChatGPT n’ont pas été informés de façon conforme et précise des fins précises relatives au développement continu du modèle et des fins précises de référence historique liée à l’intégrité scientifique, la CAI recommande à OpenAI, une fois les fins de la collecte accomplies, de procéder à l’anonymisation des renseignements personnels conservésNote de bas de page 223, et ce, afin de s’assurer que ses pratiques de conservation sont conformes à l’article 23 de la LPRPSP du Québec.
- À cet égard, malgré les nouvelles mesures mises en place, la CAI conclut que les pratiques d’OpenAI en matière de conservation des renseignements personnels ne sont pas conformes à l’article 23 de la LPRPSP du Québec.
Enjeu 7 : OpenAI a-t-elle répondu aux obligations qui lui incombent en matière de responsabilité en ce qui concerne les renseignements personnels dont elle a la gestion?
- Pour les raisons exposées ci-dessous, nous concluons qu’OpenAI n’a pas répondu entièrement aux obligations qui lui incombent en matière de responsabilité en ce qui concerne les renseignements personnels dont elle a la gestion.
- Selon les Lois, une organisation est responsable des renseignements personnels dont elle a la gestion. Elle doit désigner une ou des personnes qui s’assurent du respect des Lois et mettent en œuvre les politiques et pratiques à cet effetNote de bas de page 224.
- OpenAI a fait état des diverses mesures qu’elle a mises en œuvre pour se conformer aux obligations en matière de responsabilité prévues par les Lois. Nous notons qu’OpenAI a adopté bon nombre de structures, de politiques et de pratiques pour protéger les renseignements personnels dont elle a la gestion. En voici quelques exemples :
- Elle a mis sur pied, durant notre enquête, une équipe responsable de la conformité et des risques liés à la gouvernance qui veille à ce que les fonctions d’OpenAI respectent les obligations contractuelles, légales et réglementaires ainsi que les mandats internes des hauts dirigeants. OpenAI a expliqué que cette équipe a travaillé de près avec ses équipes de la sécurité et des affaires juridiques pour concevoir une formation sur la sécurité et le respect de la vie privée et la donner à ses employés et aux entrepreneurs avec qui elle fait affaire, précisant qu’elle comprenait un volet sur les mesures de transmission au palier hiérarchique approprié en place pour intervenir rapidement en cas d’incidents.
- Elle a désigné un responsable externe de la protection de la vie privée et rédigé des procédures et des communications sur la protection de la vie privée (conditions d’utilisation, politique de confidentialité, centre d’aide) afin de pouvoir traiter les plaintes et les questions à ce sujet.
- Elle a adopté des mesures d’atténuation des risques à diverses étapes du développement et du déploiement de ses modèles d’IA, comme il est mentionné aux paragraphes 128, 294 et 378.
- Elle a établi des procédures de sécurité pour protéger les renseignements personnels tout au long de leur cycle de vie.
- Elle a consacré des ressources à des simulations de subversion (méthode de l’équipe rougeNote de bas de page 225), annonçant en septembre 2023 qu’elle souhaitait constituer une équipe rouge mondiale formée d’experts ayant des connaissances spécialisées dans diverses disciplines, notamment la protection de la vie privée.
- Toutefois, même si ces mesures étaient des pas dans la bonne direction, les divers lacunes relevées dans le présent rapport ont démontré un manque de responsabilité de la part de la sociétéNote de bas de page 226. En particulier, après avoir recueilli sans discernement les renseignements personnels de millions d’individus au Canada et s’en être servi pour entraîner ChatGPT, OpenAI a déployé ce service sans avoir préalablement :
- établi le niveau d’exactitude des renseignements personnels communiqués dans les résultats d’un modèle (elle a plutôt opté pour une approche corrective pour remédier aux problèmes d’exactitude systémiques lorsqu’ils ont été découverts);
- élaboré une politique de conservation des renseignements personnels recueillis aux fins de développement et de déploiement de ses modèles.
- Selon un média, l’un des cofondateurs d’OpenAI a déclaré que la société s’était montrée préoccupée par le manque d’exactitude de ChatGPT et le fait qu’il avait tendance à générer des résultats indésirables lorsqu’elle a dévoilé l’outil en novembre 2022Note de bas de page 227 :
[Traduction]
« Notre plus grande préoccupation concernait la nature factuelle des résultats, car le modèle aime inventer des choses. Mais (…) d’autres grands modèles de langage existaient déjà, alors nous nous sommes dit que du moment que ChatGPT était meilleur qu’eux pour ce qui était de la réalité des faits et d’autres questions de sécurité, nous pouvions aller de l’avant. Avant le lancement, nous avons eu la confirmation que, selon nos évaluations limitées, nos modèles semblaient un peu plus factuels et sécuritaires que d’autres, alors nous avons décidé d’aller de l’avant avec le lancement. »
[caractères gras et soulignement ajoutés] - OpenAI ne conteste pas le fait que cette déclaration a été faite, mais soutient qu’elle ne devrait pas être invoquée pour les conclusions visant la responsabilité. Toutefois, à notre avis, des déclarations comme celle ci-dessus sont pertinentes à notre évaluation, car elles démontrent qu’OpenAI a lancé ChatGPT sans avoir mis en œuvre de processus et de pratique pour se conformer aux lois sur la protection des renseignements personnels et atténuer adéquatement les risques connus à ce moment-là.
- Ce manque de responsabilité a exposé des individus à des risques de préjudice, notamment à des atteintes à la sécurité de leurs renseignements personnels, à l’inexactitude de leurs renseignements, à de la discrimination fondée sur des renseignements exacts et inexacts à leur sujet, en plus d’autres préjudices personnels et sociaux facilement prévisibles qui ne relèvent pas du mandat des Commissariats.
Conclusions liées aux modèles GPT-3.5 et GPT-4
- Ainsi, nous jugeons qu’OpenAI est contrevenu au principe 1 de l’annexe 1 de la LPRPDE, aux articles 4(2), 4(3) et 5 de la PIPA de la Colombie-Britannique, aux articles 5 et 6 de la PIPA de l’Alberta, et aux articles 3.1 et 3.2 de la LPRPSP du Québec.
Développements récents et conclusions au titre de la LPRPDE
- En réponse à notre rapport préliminaire, OpenAI a fait valoir qu’elle a mis en œuvre un certain nombre de mesures visant à améliorer son cadre de gouvernance des données et de protection des renseignements personnels, notamment (comme il est décrit dans diverses sections du présent rapport) :
- le développement d’un outil de filtrage interne qui détecte et masque les renseignements personnels dans les données d’entraînement, de sorte que les modèles ne puissent pas apprendre au moyen de ceux-ci;
- les améliorations apportées aux processus de traitement des demandes visant les droits des individus;
- les mesures visant à améliorer l’exactitude des résultats du modèle, y compris au moyen de la fonctionnalité de recherche sur le Web;
- l’élaboration d’évaluations de l’exactitude des renseignements sur les individus;
- la mise en œuvre de politiques et de calendriers de conservation officiels.
- Reconnaissant les importantes mesures (y compris les politiques et les pratiques) prises par OpenAI depuis le début de notre enquête afin d’atténuer les risques pour la vie privée ainsi que les engagements supplémentaires pris auprès des Commissariats, le CPVP estime que cet élément de la plainte est fondé et conditionnellement résolu au titre de la LPRPDE.
Recommandations
- Comme nous l’avons initialement indiqué à OpenAI dans notre rapport préliminaire et comme nous l’expliquons en détail dans le présent rapport, nous sommes d’avis que la société a développé et déployé ses modèles GPT-3.5 et GPT-4 d’une façon qui contrevenait aux Lois.
- Par conséquent, en vue de permettre le développement et le déploiement de l’IA générative au Canada d’une manière qui protège suffisamment la vie privée, les Commissariats ont fait un certain nombre de recommandations à OpenAI dans leur rapport préliminaire. Ces recommandations sont présentées ci-dessousNote de bas de page 228.
Recommandations
Dans les trois mois suivant la publication du rapport de conclusions final visant cette affaire :
- [Limitation de la collecte/Nécessité] Préparer et fournir aux Commissariats un plan visant à limiter l’utilisation des renseignements personnels pour l’entraînement de ses modèles à ce qui a été établi, au moyen de recherches et d’essais, être nécessaire et proportionnel à cette fin.
- Ces mesures devraient comprendre :
- la mise en œuvre de processus et de moyens techniques qui réduisent au minimum la collecte de renseignements personnels aux fins de l’entraînement de ses modèles d’IA, notamment cesser de recueillir des données d’entraînement à partir de sources contenant une quantité importante de renseignements personnels, y compris, mais sans s’y limiter, les médias sociaux et les forums de discussionNote de bas de page 229;
- la mise en œuvre de mesures pendant les phases de préentraînement et d’affinage, comme l’utilisation de données synthétiques ou le retrait d’une plus grande proportion de renseignements personnels des ensembles de données d’entraînement.
- Ces mesures devraient comprendre :
- [Limitation de la collecte de renseignements sensibles par l’intermédiaire des interactions avec les utilisateurs] S’assurer que les utilisateurs soient clairement informés des conséquences possibles de la communication de renseignements sensibles dans leurs interactions avec ChatGPT et qu’ils puissent raisonnablement les comprendre.
- Les mesures pourraient comprendre, sans s’y limiter, l’affichage bien visible et en permanence d’un avis à cet effet sur l’interface de ChatGPT.
- [Consentement] Préparer et fournir aux Commissariats un plan prévoyant la mise en œuvre de mesures visant à s’assurer, à l’avenir, d’obtenir des individus au Canada dont elle recueille, utilise et communique les renseignements personnels aux fins de développement et de déploiement de ChatGPT, un consentement valide au titre des Lois. Ce plan devrait traiter des exigences précises prévues par chaque loi, notamment :
- En application de la LPRPDE, de la PIPA de l’Alberta et de la PIPA de la Colombie-Britannique (à l’exception de la LPRPSP du Québec) : Si les renseignements personnels recueillis, utilisés ou communiqués – qu’ils proviennent de sites Web accessibles au public, de sources tierces autorisées ou d’interactions des utilisateurs – sont de nature sensible ou si leur collecte, leur utilisation ou leur communication ne répond pas aux attentes raisonnables des individus en question, OpenAI devrait en règle générale s’assurer qu’un consentement exprès a été obtenu. Si OpenAI souhaite se fier au consentement implicite, elle doit prendre des mesures pour s’assurer que les renseignements ne sont pas de nature sensible et que la collecte, l’utilisation ou la communication répond aux attentes raisonnables des utilisateurs canadiens.
- En application de la LPRPDE, de la PIPA de l’Alberta et de la PIPA de la Colombie-Britannique (à l’exception de la LPRPSP du Québec) : Lorsqu’OpenAI recueille des renseignements personnels auprès de sources tierces autorisées afin de les utiliser ou de les communiquer, elle doit mettre en place des mesures et des processus pour s’assurer que ces tiers ont obtenu le consentement valide de tous les individus au Canada relativement à leurs renseignements personnels. Ce consentement doit permettre à OpenAI de recueillir les renseignements personnels auprès des tiers afin qu’elle les utilise ou les communique à ses propres fins. Si ce consentement ne peut être obtenu de la manière indiquée, OpenAI doit obtenir elle-même ce consentement valide auprès des personnes concernées.
- En application de la LPRPSP du Québec : Lorsqu’OpenAI recueille des renseignements personnels – que ce soit auprès de sites Web accessibles au public par moissonnage de données ou auprès de sources tierces autorisées –, donc auprès de tiers plutôt qu’auprès de la personne concernée, utilise ces renseignements ou les communique, elle doit mettre en place des mesures et des processus pour s’assurer que ces tiers ont obtenu un consentement valide des personnes concernées pour que leurs renseignements personnels soient recueillis auprès d’eux, utilisés ou communiqués par Open AI. À défaut, OpenAI doit obtenir elle-même ce consentement valide auprès des personnes concernées.
- En application de l’ensemble des Lois : En ce qui concerne la collecte, l’utilisation et la communication de renseignements personnels dans le cadre des interactions des utilisateurs avec ChatGPT, OpenAI doit, avant la collecte, donner aux utilisateurs un avis explicite énonçant les fins auxquelles les renseignements sont recueillis, utilisés ou communiqués ainsi que les moyens par lesquels les renseignements sont recueillis, utilisés ou communiqués. L’avis doit également préciser de quelle façon les utilisateurs peuvent exercer leurs droits d’accès et de correction prévus par la loi ainsi que leur droit de retirer leur consentement à la communication ou à l’utilisation des renseignements recueillis.
- mette en œuvre des mesures pour revenir en arrière par rapport à l’entraînement de ses modèles, afin de ne plus utiliser ou communiquer les renseignements personnels d’individus au Canada qui ont été recueillis sans leur consentement. Si OpenAI considère qu’il n’est pas possible de le faire, elle doit démontrer pourquoi cela n’est pas possible. En tout état de cause, l’entreprise doit veiller à ce que ces renseignements ne soient pas utilisés pour l’entraînement futur de nouveaux modèles (c’est-à-dire des modèles qui ne sont pas fondés sur des modèles précédents entraînés au moyen de données existantes). L’entraînement futur ne doit être réalisé qu’à partir de renseignements personnels pour lesquels un consentement valide a été obtenu.
- [Accès et correction] Préparer un plan et le fournir aux Commissariats. Le plan porterait sur la mise en œuvre de mesures visant à faire en sorte que les individus au Canada dont les renseignements personnels servent ou ont servi à l’entraînement des modèles :
- sont clairement informés de leur droit d’accès aux renseignements personnels contenus dans les ensembles de données d’entraînement existants et futurs et dans les résultats produits par le modèle et de leur droit de correction de ces renseignements, ainsi que du droit de retirer leur consentement à la collecte, à l’utilisation ou à la communication de leurs renseignements personnels utilisés dans l’entraînement et la production des résultats du modèle pour lesquels un consentement valide avait été obtenu;
- puissent réellement exercer ce droit.
- [Exactitude] Préparer un plan de mise en œuvre des mesures décrites à la recommandation vii et le fournir aux Commissariats.
Remarque : Dans le cadre des recommandations ci-dessus, les plans devraient comprendre un délai raisonnable et des jalons de mise en œuvre. Les mesures proposées et les échéances de mise en œuvre qui y sont associées devront être acceptées par les Commissariats.
Dans les six mois suivant la publication du rapport de conclusions final visant cette affaire :
- [Transparence des modèles] En ce qui concerne ses GML, fournir au public de l’information exhaustive, facilement accessible et rédigée dans un langage simple sur les sujets suivants :
- les catégories et les sources des renseignements utilisés pour bâtir les ensembles de données d’entraînement;
- le fonctionnement des modèles, notamment les raisons pour lesquelles ils peuvent générer des résultats inexacts;
- les limites actuelles quant à l’explicabilité des modèles.
- [Exactitude] Mettre en œuvre des mesures pour que, lorsqu’ils interagissent avec ChatGPT, les utilisateurs au Canada, y compris les entreprises, soient au courant des limites actuelles des modèles quant au degré général d’exactitude des renseignements personnels fournis dans les résultats, de façon à ce qu’ils puissent déterminer si ceux-ci sont aussi exacts que l’exigent les fins auxquelles ils sont destinés. Ces mesures devraient notamment comprendre :
- mener une évaluation (recherche et essais) ou charger un tiers qualifié de mener une telle évaluation afin d’établir le degré général d’exactitude des renseignements personnels inclus dans les résultats de ChatGPT;
- être plus transparente quant au degré d’exactitude des résultats des modèles et aux limites relatives à leur exactitude et l’indiquer de façon plus explicite et visible par des mesures qui pourraient comprendre ce qui suit :
- inclure systématiquement des avertissements dans les résultats des modèles (par exemple, la date de la dernière mise à jour du modèle, une recommandation visant la vérification des sources);
- rendre l’avis permanent sur l’exactitude des résultats plus visible sur l’interface de ChatGPT, notamment pour communiquer le degré établi d’exactitude des renseignements personnels inclus dans les résultats des modèles (voir la recommandation vii.a.);
- fournir un mécanisme permettant aux individus ou aux utilisateurs de vérifier l’exactitude des renseignements personnels fournis dans les résultats du modèle. Ces mesures devraient notamment comprendre :
- inclure systématiquement des liens vers les sources des renseignements personnels compris dans les résultats des modèles et, si c’est impossible, préciser les éléments pour lesquels il n’y a pas de source disponible.
- [Accès] Mettre en place des mesures pour que le format des fichiers et les renseignements fournis au moyen de l’outil « Exporter les données » soient accessibles et conviviaux pour le public en général.
- OpenAI devrait offrir aux utilisateurs l’option de remettre en question l’exactitude des renseignements fournis au moyen de l’outil « Exporter les données » ou de demander l’accès à leurs renseignements de façon plus officielle, conformément aux droits énoncés dans les Lois. Cette option devrait être expliquée clairement dans les communications et réponses relatives à l’outil « Exporter les données ».
- [Conservation] Établir une politique officielle de conservation et de suppression des renseignements personnels qu’elle recueille au sujet d’individus au Canada afin qu’ils ne soient conservés qu’aussi longtemps que nécessaire pour la réalisation des fins déterminées. Cela comprend la définition de périodes de conservation des ensembles de données utilisés pour entraîner des itérations successives de ses modèles et des données brutes non structurées utilisées pour bâtir ces ensembles de données.
- [Responsabilité] Mettre en œuvre des mesures de responsabilité pour donner suite aux recommandations mentionnées ci-dessus, notamment au moyen de l’élaboration et de la mise à jour des modèles de gouvernance, des politiques et des pratiques, ainsi que par la formation des employés, en ce qui a trait aux changements apportés pour se conformer à nos recommandations.
- [Limitation de la collecte/Nécessité] Préparer et fournir aux Commissariats un plan visant à limiter l’utilisation des renseignements personnels pour l’entraînement de ses modèles à ce qui a été établi, au moyen de recherches et d’essais, être nécessaire et proportionnel à cette fin.
Réponse d’OpenAI
- OpenAI a exprimé qu’elle n’est pas d’accord avec nos conclusions. Elle a affirmé qu’elle respectait les Lois à la plupart des égards, par une combinaison de ses pratiques existantes (y compris les mesures nouvellement mises en œuvre) et de communications connexes, qui, selon elle, tiendraient compte de nos recommandations.
- Néanmoins, OpenAI a discuté activement avec nous de nos conclusions et recommandations. Elle a fourni des précisions sur les mesures récemment mises en œuvre et a présenté des engagements qui permettraient de régler la situation. À la suite de ces discussions, OpenAI s’est engagée à mettre en place des mesures supplémentaires visant à améliorer la protection de la vie privée :
- [Ouverture et transparence (des modèles)] En même temps que la publication du présent rapport, elle publiera sur son site Web un billet de blogue canadien qui expliquera ses pratiques en matière de protection de la vie privée et elle fera la promotion du blogue et de son contenu dans les médias canadiens. Le billet de blogue informera les individus que, notamment, les interactions des utilisateurs peuvent être examinées et utilisées pour entraîner les modèles, conseillera aux utilisateurs de ne pas fournir de renseignements sensibles dans leurs interactions avec ChatGPT, traitera du sujet de l’exactitude de ses modèles (le billet contiendra un lien vers la version mise à jour de l’article Est-ce que ChatGPT dit la vérité? et fournira de l’information sur les catégories de contenu utilisées pour entraîner ses modèles.
- [Ouverture et transparence (des modèles)] Dans les trois mois suivant la publication du présent rapport, elle étoffera son article intitulé Comment ChatGPT et nos modèles fondamentaux sont développés pour y inclure des explications plus claires sur les sources d’information utilisées pour entraîner ses modèles.
- [Ouverture et transparence (des modèles)] Dans les trois mois suivant la publication du présent rapport, dans le cadre de l’expérience Web de ChatGPT pour les utilisateurs qui n’ont pas de compte – avant que l’utilisateur n’entre sa première invite –, on présentera un avis indiquant que les clavardages peuvent être examinés et utilisés pour entraîner les modèles et conseillant aux utilisateurs de ne pas fournir de renseignements sensibles.
- [Accès] Dans les six mois suivant la publication du présent rapport, elle i) utilisera un format plus accessible et plus convivial pour présenter les renseignements personnels dans ses exportations de données et ii) révisera les renseignements qu’elle communique aux utilisateurs qui souhaitent exporter des données afin de les informer des méthodes qui leur sont offertes s’ils souhaitent remettre en question l’exhaustivité, l’exactitude ou la nature des renseignements fournis.
- [Conservation] Dans les six mois suivant la publication du présent rapport, en ce qui concerne les futurs ensembles de données recueillis légalement, qui seront obsolètes et utilisés uniquement comme référence historique à des fins d’intégrité scientifique, elle :
- confirmera dans un rapport qu’elle devra remettre aux Commissariats que des mesures de contrôle techniques et organisationnelles rigoureuses sont en place pour veiller à ce que les ensembles de données conservés à des fins d’intégrité scientifique connexes ne soient pas utilisés pour le développement actif de modèles une fois qu’ils ne sont plus nécessaires à cette fin;
- continuera, dans la mesure où ces ensembles de données conservés contiennent des renseignements personnels, à respecter les droits applicables des personnes concernées, comme l’exige la loi;
- continuera de réévaluer périodiquement s’il demeure nécessaire, conformément aux critères établis, de conserver chaque ensemble de données.
- [Protection de la vie privée des enfants] Dans les six mois suivant la publication du présent rapport, elle testera l’ajout d’une mesure de protection pour les membres mineurs de la famille des personnalités publiques (qui ne sont pas eux-mêmes des personnalités publiques). Cette mesure fera en sorte que les modèles refuseront les demandes relatives au nom ou à la date de naissance des membres mineurs de la famille de ces personnalités, même si ces renseignements sont actuellement accessibles au public en ligne.
- [Rapports] Elle remettra aux Commissariats des rapports trimestriels qui confirment et démontrent, au moyen de présentations détaillées et d’éléments probants, qu’elle respecte les engagements énoncés ci-dessus, et ce, jusqu’à ce qu’elle les ait tous tenus.
- Enfin, OpenAI a informé les Commissariats qu’elle a abandonné (c’est-à-dire mis hors service) ses modèles GPT-3.5 et GPT-4 et elle a confirmé que les nouvelles mesures d’atténuation, y compris l’outil de filtrage, ont été appliquées tout au long du développement et du déploiement des modèles actuels qui alimentent ChatGPTNote de bas de page 230.
- Puisque nous constatons que les engagements d’OpenAI diffèrent à bien des égards des mesures précises recommandées dans notre rapport préliminaire, nous avons évalué l’adéquation de ces engagements par rapport à l’intention de chacune de nos recommandations.
Conclusion
CPVP
- Compte tenu de ce qui précède et de la nécessité d’assurer un équilibre entre le droit à la vie privée des individus et les besoins des entreprises d’utiliser des renseignements personnels à des fins appropriées, et conformément à une interprétation pragmatique et souple de la LPRPDE, le CPVP est convaincu que les engagements d’OpenAI répondent de façon satisfaisante à l’intention des recommandations de remédier aux infractions que nous avons relevées. Par conséquent, le CPVP estime que la plainte est fondée et conditionnellement résolue.
- Le CPVP continuera de travailler avec OpenAI pour veiller à ce que les recommandations convenues soient mises en œuvre afin de résoudre l’affaire définitivement.
CIPVP de l’Alberta et CIPVP de la Colombie-Britannique
- Le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta ont, de la même manière, adopté une approche pragmatique et souple dans l’interprétation de leurs lois respectives, conformément à l’approche moderne, mais ces lois sont, sur certains points essentiels, plus précises et explicites que la LPRPDE. En particulier, ces lois respectent la norme établie par la LPRPDE en ce qui concerne les fins acceptables et sont donc, essentiellement similaires à la LPRPDE, tout en étant plus précises que celle-ci. Pour cette raison, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta n’avaient pas la latitude nécessaire pour interpréter les lois avec autant de latitude que le CPVP.
- Comme il est expliqué dans la section de l’enjeu 2 (relative au consentement), le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta concluent que les modèles d’OpenAI sont basés sur des données moissonnées pour lesquelles OpenAI n’a pas obtenu, et ne peut obtenir, de consentement au titre de la PIPA de la Colombie-Britannique et de la PIPA de l’Alberta. Bien que le CIPVP de l’Alberta et le CIPVP de la Colombie-Britannique trouvent encourageantes les nouvelles mesures prises par OpenAI depuis le début de cette enquête pour assurer la conformité ainsi que les mesures supplémentaires que la société s’est engagée à mettre en œuvre, ils sont d’avis qu’elles ne suffisent pas à satisfaire à l’exigence fondamentale de consentement prévue par la PIPA de la Colombie-Britannique et la PIPA de l’Alberta. Malgré cette conclusion, le CIPVP de la Colombie-Britannique et le CIPVP de l’Alberta se sont joints au CPVP et à la CAI pour formuler des recommandations conjointes et surveiller la mise en œuvre des mesures qu’OpenAI s’est engagée à prendre.
CAI
- La CAI considère que les éléments de la plainte liés aux enjeux 1, 5 et 7 (qui portent sur les fins acceptables, les droits des individus et la responsabilité) sont fondés et conditionnellement résolus, et que ceux liés aux enjeux 2 et 6 (qui portent sur le consentement et la conservation) sont fondés et non résolus. En raison des spécificités de la loi qu’elle applique, la CAI n’a pas formulé de conclusion sur les enjeux 3 et 4 (qui portent sur la transparence et l’exactitude).
- De plus, la CAI a fait des recommandations supplémentaires en matière de consentement et de conservation, conformément aux spécificités des dispositions de la loi qu’elle applique. Plus précisément, la CAI recommande qu’OpenAI mette en œuvre les mesures présentées ci-dessous.
En ce qui concerne le consentement :- Lorsqu’elle recueille des renseignements personnels auprès de sources d’information accessibles sur le Web, soit directement en faisant du moissonnage de données ou en les recueillant auprès de tiers qui ont eux-mêmes fait la collecte de ces renseignements en faisant du moissonnage de données, aux fins de l’entraînement de ses modèles, de mettre en place tout processus ou toute mesure raisonnable afin de s’assurer que les personnes concernées ont clairement été informées, lors de la collecte initiale de leurs renseignements personnels, du fait qu’en fournissant de tels renseignements, ces derniers allaient être rendus publics et que, par le fait même, ils pourraient ainsi être recueillis, utilisés par des tiers, notamment aux fins de l’entraînement de modèles d’IA, ainsi que communiqués par ces derniers, et de s’assurer que la communication de ces renseignements personnels ne relève pas d’une communication faite par un tiers sans consentement ou d’une communication de renseignements personnels qui concernent une personne de moins de 14 ans, et ce, sans le consentement du titulaire de l’autorité parentale ou du tuteurNote de bas de page 231;
- Concernant l’information fournie aux utilisateurs de la version Web et gratuite de ChatGPT relativement à l’utilisation des renseignements tirés de leurs clavardages aux fins de l’entraînement des modèles, la CAI recommande à OpenAI d’ajouter sur sa version en ligne et gratuite un avis ou une fenêtre contextuelle dès la connexion et avant la première utilisation qui informe les utilisateurs du fait que le contenu de leur clavardage pourrait être examiné et utilisé aux fins de l’entraînement des modèles et, par conséquent, qu’il ne faut pas communiquer des renseignements de nature sensibleNote de bas de page 232;
- Concernant l’article 9.1 de la LPRPSP du Québec, la CAI recommande à OpenAI de modifier les paramètres de confidentialité de ses systèmes afin que ces derniers prévoient par défaut que les clavardages des utilisateurs ne seront pas utilisés aux fins de l’entraînement de ses modèles, à moins que les utilisateurs n’activent cette fonctionnalitéNote de bas de page 233.
- La CAI recommande à OpenAI d’informer précisément les utilisateurs de ChatGPT de la question de la conservation des renseignements personnels aux fins de référence historique liée à l’intégrité scientifique ou à défaut, une fois les fins de la collecte accomplies, de procéder à la destruction de ces renseignements ou de procéder à leur anonymisation, et ce, afin d’assurer la conformité de ses pratiques de conservation avec la LPRPSP du QuébecNote de bas de page 234.
- La CAI entend suivre la mise en œuvre par OpenAI des recommandations conjointes ainsi que des recommandations propres au Québec. Elle en tiendra compte afin d’évaluer l’opportunité de prendre d’autres mesures de vérification ou d’enquête ou encore de formuler d’autres recommandations ou de rendre des ordonnances liées à la conformité des pratiques d’OpenAI à la LPRPSP du Québec.
Observations d’ordre général à prendre en compte et attentes
- De façon plus générale, les Commissariats s’attendent à ce qu’OpenAI adopte une approche de protection de la vie privée dès la conception pour améliorer sa gamme de produits actuelle et pour développer de futurs produits et services. En répondant aux préoccupations que nous avons soulevées tout au long de notre enquête, OpenAI a démontré sa capacité à trouver des solutions novatrices pour atténuer les risques pour la vie privée. Nous nous attendons à l’avenir à ce que la société continue d’innover en faveur de la protection de la vie privée.
- Enfin, même si le présent rapport visait à traiter et à atténuer le risque pour la vie privée associé au développement et au déploiement de grands modèles de langage (GML), nous reconnaissons que cette technologie soulève beaucoup d’autres questions et défis, notamment des enjeux de nature sociétale et éthique, que les organismes de réglementation, les universitaires et les tribunaux du monde entier tentent actuellement d’évaluer et de traiter. Nous sommes convaincus que cet effort collectif contribuera à façonner et à définir un cadre rigoureux pour le développement futur de l’IA générative, au Canada et ailleurs.
Annexe A – Résumé des principales mesures d’atténuation actuellement mises en œuvre par OpenAI aux différentes étapes du développement et du déploiement de ses modèles
- Le tableau ci-dessous donne une vue d’ensemble des principales mesures d’atténuation (décrites dans le présent rapport) qu’OpenAI a mises en œuvre pour limiter la quantité et le degré de sensibilité des renseignements personnels recueillis, utilisés et communiqués par ses modèles.
Étape de la collecte des données Mesures pour éviter de recueillir des renseignements indésirables ou potentiellement préjudiciables Lors de la collecte de données accessibles au public, OpenAI ne contourne pas les exigences de connexion liées aux verrous d’accès payant ou à l’ouverture de session, et n’obtient pas de renseignements à partir du Web clandestin ou de groupes fermés d’utilisateurs.
OpenAI filtre également un éventail de renseignements provenant des ensembles de données d’entraînement, comme les sites Web connus pour offrir principalement des renseignements personnels (par exemple, les sites de recherche généalogique, les sites Web qui fournissent des coordonnées personnelles) et d’autres catégories de sites Web connus pour contenir des renseignements inexacts sur le plan factuel, non fiables ou potentiellement préjudiciables, comme des sites contenant du contenu piraté ou d’autre contenu illégal, du contenu érotique, des discours haineux, du contenu pour adultes et des pourriels.
Ce filtrage réduit le risque de recueillir des renseignements potentiellement sensibles sur des individus pour entraîner les modèles OpenAI.Moyens de s’opposer à l’exploration du Web Les propriétaires de sites Web peuvent interdire à GPTBot, qui est utilisé pour explorer et moissonner le contenu pouvant être utilisé aux fins de l’entraînement des modèles OpenAI, d’accéder à leur site à l’aide de fichiers robots.txt.
OpenAI fournit des instructions qui permettent aux webmestres de configurer leurs étiquettes de fichiers robots.txt pour indiquer aux robots d’indexation et aux autres robots d’exploration du Web quelles parties du site Web ils sont autorisés à consulter.
Les propriétaires de sites Web peuvent également communiquer avec OpenAI s’ils ne veulent pas que leurs pages soient utilisées pour entraîner les modèles d’OpenAI.Étape du préentraînement Ensembles de données non structurés Les ensembles de données utilisés pour le préentraînement ne contiennent aucun répertoire ou réseau de relations pour établir un lien entre certains points de données et des individus donnés, ce qui signifie qu’il n’existe pas de moyen systématique i) de récupérer tous les renseignements sur un individu, ii) de vérifier si les points de données concernent un individu donné ou iii) de créer des profils sur des individus. Cela réduit le risque qu’un lien soit établi entre des renseignements et un individu, et que les renseignements soient utilisés ou communiqués d’une manière qui pourrait nuire à cet individu. Segmentation en unités Les données d’entraînement sont segmentées en unités, ce qui limite aussi le risque de préjudices pour la vie privée. La segmentation en unités est le fait de convertir les renseignements en représentations numériques, ou « pièces » visuelles, qui sont des représentations de vidéos et d’images en collections d’unités de données plus petites.
En segmentant en unités les données d’entraînement, OpenAI s’assure que toutes les données présentées au modèle, notamment les renseignements personnels, ne sont pas utilisées dans leur format d’origine qui permet l’identification.Déduplication OpenAI réduit la quantité de renseignements personnels contenus dans les ensembles de données d’entraînement en détectant et en supprimant les copies en double des renseignements identiques. Masquage OpenAI réduit de façon importante le traitement des renseignements personnels en détectant les renseignements permettant d’identifier des individus (comme les numéros de téléphone personnels, les adresses courriel et les adresses domiciliaires, ainsi que les noms et les pseudonymes de médias sociaux d’individus) et en masquant ces renseignements pendant le processus d’entraînement.
OpenAI a développé et mis en œuvre un outil interne qui peut déceler d’autres catégories de renseignements personnels pouvant être compris dans les données d’entraînement et masquer ces renseignements avant qu’ils ne soient utilisés à des fins d’entraînement, et il a mené des recherches pour parvenir à cet outil. Ainsi, les modèles ne peuvent pas apprendre au moyen de ces renseignements.Filtrage à la suite de demandes présentées par des individus OpenAI filtre les renseignements personnels vérifiés pour les exécutions d’entraînement de modèles futurs à la suite d’une demande de suppression valide. Les renseignements personnels vérifiés des individus (comme leur nom) sont ajoutés à une liste de blocages et exclus des exécutions d’entraînement futurs. Étape après l’entraînement (affinage) Suppression du lien entre les conversations des utilisateurs et leur compte d’utilisateur OpenAI supprime le lien entre les conversations des utilisateurs et leur compte d’utilisateur avant d’utiliser ces données pour un entraînement visant l’amélioration du modèle, limitant ainsi la mesure dans laquelle tout renseignement peut être directement lié à un individu. Filtrage des conversations de l’utilisateur OpenAI a mis en œuvre des filtres automatisés pour supprimer les renseignements permettant d’identifier des individus dans les conversations des utilisateurs avant d’utiliser ces données à des fins d’entraînement ou d’amélioration du modèle. OpenAI a également mis au point un outil qui détecte un large éventail de renseignements personnels qui peuvent se trouver dans les conversations des utilisateurs et caviarde ces renseignements avant de stocker les données des conversations et de les utiliser dans le processus d’entraînement, de sorte que les modèles ne puissent pas apprendre au moyen de ces renseignements. Entraînement visant les refus afin de limiter les données personnelles dans les résultats Les modèles sont entraînés pour refuser de fournir des renseignements personnels ou sensibles sur des individus, même si les renseignements sont accessibles au public sur l’Internet ouvert et étaient fournis par l’intermédiaire de moteurs de recherche. Entraînement visant les refus afin d’éviter de fournir les données d’entraînement dans les résultats Les modèles font l’objet d’un entraînement postérieur afin de réduire le risque de répétition et de reproduction des données d’entraînement dans les résultats des modèles. Entraînement visant les refus afin d’éviter les conclusions justifiées ou non justifiées et sensibles Les modèles font l’objet d’un entraînement postérieur afin d’éviter de faire des conclusions non justifiées ou sensibles sur un individu en fonction d’une vidéo, d’une image ou d’un enregistrement sonore (le terme « conclusions non justifiées » signifie de tenter de faire des conclusions sur un individu qui ne peuvent être déterminées uniquement à partir d’une vidéo, d’un son ou d’un enregistrement sonore, comme sur son intelligence, son statut socioéconomique ou son orientation sexuelle). Entraînement visant les refus afin d’éviter l’identification Les modèles font l’objet d’un entraînement postérieur afin de ne pas tenter d’établir l’identité d’individus en se basant uniquement sur des images, des vidéos ou des données audio. Méthode de l’équipe rouge OpenAI collabore avec des experts internes et externes (méthode de l’équipe rouge) pour évaluer le contenu potentiellement préjudiciable qui se trouve dans les résultats, notamment en ce qui concerne la protection de la vie privée.
Le réseau de l’équipe rouge d’OpenAI est constitué d’une communauté diversifiée d’experts externes fiables, notamment des experts en la matière, des institutions de recherche et des organisations de la société civile, qui aident à déterminer les risques liés à la cybersécurité, aux menaces biologiques et chimiques, aux préjudices sociétaux, à la sécurité des enfants, à l’éducation, à l’équité et aux préjugés, à la protection de la vie privée, à la désinformation et à de nombreux autres aspects.Étape du déploiement Fonctionnalité de recherche sur le Web Dans la mesure où des renseignements personnels peuvent être produits par ChatGPT (par exemple, des renseignements autres que des renseignements personnels ou sensibles sur des personnalités publiques), l’outil peut tirer parti de ses capacités de recherche sur le Web en temps réel pour inciter ses modèles à effectuer des recherches visant l’obtention de renseignements et de sources accessibles au public et à jour avant de répondre à une invite. Cette fonctionnalité permet de tenir compte du risque que des renseignements personnels potentiellement inexacts apparaissent dans les résultats de ChatGPT.
En fournissant des références dans les résultats, la fonctionnalité de recherche sur le Web sert également à veiller à ce que les utilisateurs puissent vérifier de façon indépendante les renseignements présentés.Prise en compte des droits des individus OpenAI a mis en œuvre une gamme de technologies (accessibles par l’intermédiaire du portail de confidentialité) conçues pour permettre aux individus d’exercer leurs droits (comme l’accès, la rectification et la suppression) à chaque étape du traitement des données, de l’entraînement des modèles à la production de résultats par les modèles.
Lorsqu’OpenAI filtre les renseignements personnels vérifiés d’un individu pour qu’ils n’apparaissent pas dans le résultat de ChatGPT (en réponse à une demande visant un droit), il les filtre également pour les exécutions d’entraînement de modèles futurs.
OpenAI offre aux utilisateurs une variété de contrôles de l’utilisateur, notamment l’option de supprimer leur historique de conversation pour ChatGPT (et d’autres services d’OpenAI) et de refuser que les données de leurs conversations soient utilisées pour l’entraînement des modèles.
- Date de modification :