L’utilisation des données personnelles par ChatGPT est-elle légale ?

Emma McGowan 1 févr. 2023

À l’heure actuelle, il n’existe pas de méthode reconnue permettant aux particuliers de demander le retrait de leurs données d’un modèle d’apprentissage automatique une fois qu’elles ont été utilisées pour entraîner le modèle.

Dans le monde de l’IA et de l’apprentissage automatique (machine learning), la popularité soudaine et massive des modèles d’apprentissage linguistique est un sujet sensible. Ces outils, dont le plus populaire est probablement ChatGPT-3, sont des modèles de langage qui peuvent répondre à des questions spécifiques et même générer du code. Ils peuvent être utilisés dans diverses situations, telles que les chatbots, la traduction et le résumé de texte. Cependant, comme toute technologie, celle-ci présente des inconvénients et soulève des inquiétudes.

ChatGPT : la question de la confidentialité

L’une des principales inquiétudes liées à ces modèles est la protection de la confidentialité. Il peut être difficile de savoir si les données personnelles d’une personne ont été utilisées pour entraîner un modèle d’apprentissage automatique. GPT-3, par exemple, est un grand modèle de langage qui a été entraîné avec une grande quantité de données récupérées sur Internet, y compris sur des sites web personnels et des contenus issus de réseaux sociaux. Cette méthode d'apprentissage a soulevé des inquiétudes sur l'utilisation sans autorisation de données et sur la difficulté à contrôler ou à supprimer les données qui ont été utilisées pour entraîner le modèle.

Une autre préoccupation est la question du « droit à l’oubli ». À mesure que l’utilisation des modèles GPT et des autres modèles d’apprentissage automatique se généralise, les utilisateurs souhaiteront peut-être avoir la possibilité d’effacer leurs données du modèle.

« Les gens sont furieux que leurs données soient utilisées sans leur permission », a déclaré Sadia Afroz, chercheuse en intelligence artificielle chez Avast. « Parfois, certaines personnes ont supprimé leurs données, mais comme le modèle de langage les a déjà utilisées, elles y sont pour toujours. Ils ne savent pas comment supprimer les données ».

À l’heure actuelle, il n’existe pas de méthode reconnue permettant aux particuliers de demander le retrait de leurs données d’un modèle d’apprentissage automatique une fois qu’elles ont été utilisées pour entraîner le modèle. Certains chercheurs et entreprises travaillent sur des méthodes permettant de supprimer ou d’« oublier » des points de données spécifiques ou des informations sur l’utilisateur, mais ces méthodes n’en sont qu’à leurs débuts et leur faisabilité ou leur efficacité n’est pas encore établie. En outre, la suppression des données des modèles d’apprentissage automatique pose des problèmes techniques, car les données peuvent avoir été utilisées pour entraîner le modèle et leur suppression peut conduire à une perte de sa précision.

ChatGPT est-il légal ?

La légalité de l’utilisation de données personnelles pour entraîner des modèles d’apprentissage automatique tels que GPT-3 peut varier en fonction des lois et réglementations spécifiques d’un pays ou d’une région. Au sein de l’Union européenne, par exemple, le règlement général sur la protection des données (RGPD) encadre l’utilisation des données à caractère personnel et exige que les données ne soient collectées et utilisées qu’à des fins spécifiques et légales.

« Le RGPD s’articule beaucoup autour de la notion de finalité », explique Sadia Afroz. « Vous devez donc utiliser les données aux fins pour lesquelles vous les avez collectées. Si vous voulez les utiliser pour autre chose, vous devez obtenir une autorisation. Mais les modèles de langage font tout l'inverse : ils utilisent les données à n’importe quelle fin. Comment le RGPD peut-il faire respecter cette restriction ? »

En vertu du RGPD, les organisations sont tenues d’obtenir le consentement explicite des individus avant de collecter et d’utiliser leurs données à caractère personnel. Il existe une base juridique pour le traitement des données à caractère personnel à des fins de recherche scientifique et historique, mais le responsable du traitement doit se conformer aux principes et aux droits du RGPD, tels que le droit d’être informé, le droit d’accès, le droit de rectification, le droit d’effacement, le droit d’opposition et le droit à la portabilité des données. Il semblerait donc que les modèles de langage ne soient pas conformes au RGPD, ce qui pourrait devenir un obstacle majeur à leur développement futur.

Aux États-Unis, aucune loi fédérale ne réglemente spécifiquement l’utilisation de données personnelles pour entraîner des modèles d’apprentissage automatique. Toutefois, les organisations sont généralement tenues de se conformer à des lois telles que le Health Insurance Portability and Accountability Act (HIPAA) et le Children’s Online Privacy Protection Act (COPPA) si elles collectent et utilisent des données à caractère personnel provenant de personnes appartenant à certaines catégories sensibles. En Californie, où se trouve la majorité des grandes entreprises technologiques, les entreprises sont tenues de respecter la California Consumer Privacy Act (CCPA), dont les exigences en matière de protection de la vie privée sont similaires à celles du RGPD.

Cela dit, le développement de modèles d’IA tels que GPT-3 est un domaine en constante évolution. Ainsi, les lois et réglementations relatives à l’utilisation des données personnelles dans l’IA sont susceptibles d’évoluer à l’avenir, d’où l’importance de se tenir informé des derniers développements juridiques dans ce domaine.

ChatGPT est-il fiable ?

La désinformation et l’absence de vérification constituent une autre inquiétude majeure concernant les modèles GPT. Nous savons que de nombreuses intelligences artificielles de langage présentent les informations avec conviction, mais de manière inexacte. Cette absence de vérification des faits pourrait potentiellement accroître la diffusion de fausses informations, ce qui est particulièrement dangereux dans des domaines sensibles tels que l’actualité et la politique. Google, par exemple, prévoit d’utiliser de grands modèles de langage pour mieux servir ses clients, mais on ne sait pas encore comment il gérera la vérification des faits.

Si les grands modèles de langage ont le potentiel de révolutionner la façon dont nous interagissons avec la technologie et d’automatiser certaines tâches, il est également important de prendre en compte les inconvénients et les inquiétudes qu'ils soulèvent. L’utilisation de ces modèles étant de plus en plus répandue, il est essentiel de répondre aux préoccupations en matière de protection de la vie privée et de trouver des solutions au problème du « droit à l’oubli ».

--> -->