ChatGPT y los datos | Avast

Emma McGowan 1 feb 2023

En el mundo de la IA y el AA, los modelos de aprendizaje del lenguaje son un tema candente. Pueden tener muchas aplicaciones, pero, como con cualquier tecnología, también existen posibles inconvenientes y preocupaciones.

En el mundo de la IA y el aprendizaje automático, la repentina popularidad masiva de los modelos de aprendizaje del lenguaje es un tema candente. Estas herramientas, entre las cuales la más popular en la actualidad es probablemente ChatGPT-3, son modelos lingüísticos que pueden responder a preguntas concretas e incluso generar código. Puede utilizarse para diversas aplicaciones, como chatbots, traducción de idiomas y resumen de textos. Sin embargo, como ocurre con cualquier tecnología, también existen posibles inconvenientes y preocupaciones.

ChatGPT y la privacidad

Una de las principales preocupaciones que suscitan estos modelos es la privacidad. Los usuarios pueden tener dificultades para averiguar si se han utilizado sus datos para entrenar un modelo de aprendizaje automático. GPT-3, por ejemplo, es un gran modelo de lenguaje que se ha entrenado con una gran cantidad de datos de Internet, incluidos sitios web personales y contenidos de redes sociales. Esto ha generado la preocupación de que el modelo pueda utilizar los datos de las personas sin su permiso y que sea difícil controlar o eliminar los datos que se han utilizado para entrenar el modelo.

Otra preocupación es la cuestión del «derecho al olvido». A medida que se generalice el uso de modelos GPT y otros modelos de aprendizaje automático, es posible que los usuarios quieran tener la posibilidad de borrar sus datos del modelo.

«La gente está furiosa porque los datos se utilizan sin su permiso», afirma Sadia Afroz, investigadora de IA de Avast. «Hay personas que han borrado sus datos, pero, como el modelo de lenguaje ya los ha utilizado, se quedan ahí para siempre. No saben cómo borrarlos».

En la actualidad, no existe ningún método ampliamente aceptado para que los usuarios soliciten la eliminación de sus datos de un modelo de aprendizaje automático una vez que se han utilizado para entrenarlo. Investigadores y empresas están trabajando en métodos que permitan eliminar u «olvidar» información de usuarios o datos específicos, pero estos métodos aún se encuentran en las primeras fases de desarrollo y todavía no está claro hasta qué punto serán viables o eficaces. Además, la eliminación de datos de los modelos de aprendizaje automático plantea problemas técnicos, ya que los datos pueden haberse utilizado para entrenar el modelo y su eliminación puede hacer que este pierda precisión.

¿Es legal ChatGPT?

La legalidad del uso de datos personales para entrenar modelos de aprendizaje automático como GPT-3 puede variar en función de las leyes y normativas específicas de determinados países o regiones. En la Unión Europea, por ejemplo, el Reglamento General de Protección de Datos (RGPD) regula el uso de los datos personales y exige que se recopilen y utilicen únicamente para fines específicos y lícitos.

«El RGPD tiene como objetivo la restricción de los fines», declara Afroz. «Los datos deben utilizarse para el fin para el que se han recopilado. Si se quieren usar para otra cosa, hay que pedir permiso. Pero los modelos de lenguaje son todo lo contrario: los datos pueden utilizarse para cualquier fin. ¿Cómo puede el RGPD hacer cumplir esta restricción?».

Según el RGPD, las empresas deben obtener el consentimiento explícito de los usuarios antes de recopilar y utilizar sus datos personales. Existe una base jurídica para el tratamiento de datos personales con fines de investigación científica e histórica, pero el responsable del tratamiento debe cumplir los principios y derechos del RGPD, como el derecho a ser informado del usuario, el derecho de acceso, el derecho de rectificación, el derecho de supresión, el derecho de oposición y el derecho a la portabilidad de datos. En consecuencia, parece que los modelos de aprendizaje del lenguaje no cumplen con el RGPD, lo que podría convertirse en una importante barrera para su crecimiento en el futuro.

En Estados Unidos no existe ninguna ley federal que regule específicamente el uso de datos personales para entrenar modelos de aprendizaje automático. Sin embargo, por lo general, las empresas están obligadas a cumplir leyes como la Ley de Transferencia y Responsabilidad de Seguro Médico (HIPAA o Health Insurance Portability and Accountability Act) o la Ley de Protección de la Privacidad en Línea para Niños (COPPA o Children's Online Privacy Protection Act) si recopilan y utilizan datos personales de individuos de determinadas categorías sensibles. En California, donde se encuentran la mayoría de las grandes compañías tecnológicas, las empresas están obligadas a cumplir la Ley de Privacidad del Consumidor de California (CCPA o California Consumer Privacy Act), que tiene requisitos de privacidad similares a los del RGPD.

El desarrollo de modelos de IA, como GPT-3, es un campo en constante evolución. Como tal, es probable que las leyes y normativas que regulan el uso de datos personales en la IA cambien en el futuro, por lo que es importante mantenerse al día sobre los últimos avances legales en este ámbito.

¿Es preciso ChatGPT?

Otra gran preocupación sobre los modelos GPT es la desinformación y la falta de verificación. Se ha informado ampliamente sobre muchas IA de aprendizaje del lenguaje que presentan información de forma segura pero inexacta. Esa falta de comprobación de los hechos podría aumentar la difusión de información falsa, lo que resulta especialmente peligroso en ámbitos delicados como las noticias y la política. Google, por ejemplo, tiene previsto utilizar grandes modelos de aprendizaje del lenguaje para ofrecer un mejor servicio a sus clientes, pero aún no está claro cómo gestionará el elemento de comprobación de los hechos.

Aunque los grandes modelos de aprendizaje del lenguaje tienen el potencial de revolucionar la forma en que interactuamos con la tecnología y automatizar ciertas tareas, es importante considerar también los posibles inconvenientes y preocupaciones. A medida que se generaliza el uso de estos modelos, es crucial abordar los problemas de privacidad y encontrar soluciones para la cuestión del «derecho al olvido».

--> -->