Atualmente, não existe um método amplamente aceito para que os indivíduos solicitem a remoção de seus dados de um modelo de aprendizado de máquina depois de terem sido usados para treinar o modelo.
No mundo da IA e do aprendizado de máquina, a popularidade repentina e maciça dos modelos de linguagem de aprendizado é um tema muito discutido. Essas ferramentas, das quais a mais popular é provavelmente o ChatGPT-3, são modelos de linguagem que podem responder a perguntas específicas e até mesmo gerar códigos. Elas podem ser usadas em uma variedade de aplicativos, como chatbots, tradução de idiomas e resumo de textos. No entanto, como acontece com qualquer tecnologia, também há possíveis desvantagens e preocupações.
Privacidade e ChatGPT
Uma das principais preocupações com esses modelos é a privacidade. Pode ser difícil para as pessoas saberem se seus dados foram usados para treinar um modelo de aprendizado de máquina. O GPT-3, por exemplo, é um modelo de linguagem grande que foi treinado com um volume gigante de dados da Internet, incluindo sites pessoais e conteúdo de redes sociais. Isso gerou preocupações de que o modelo pode usar informações de pessoas sem permissão, e que possivelmente seja difícil controlar ou excluir dados utilizados no treinamento do modelo.
Outra preocupação é a questão do "direito de ser esquecido" À medida que o uso de modelos GPT e outros modelos de aprendizado de máquina se torna mais difundido, as pessoas podem querer ter a capacidade de apagar seus dados.
"As pessoas estão furiosas porque seus dados estão sendo usados sem permissão", diz Sadia Afroz, pesquisadora de IA da Avast. "Às vezes, algumas pessoas excluem informações, mas como o modelo de linguagem já as utilizou, elas ficam lá para sempre. Os sistemas não sabem como excluir esses dados.”
Atualmente, não existe um método amplamente aceito para que os indivíduos solicitem a remoção de seus dados de um modelo de aprendizado de máquina depois de terem sido usados para treinar o modelo. Alguns pesquisadores e empresas estão trabalhando em métodos que permitem a remoção ou o "esquecimento" de pontos de dados específicos ou de informações do usuário, mas esses métodos ainda estão em estágios iniciais de desenvolvimento e ainda não está claro se serão viáveis ou eficazes. Além disso, existem desafios técnicos para a remoção de dados dos modelos de aprendizado de máquina, pois as informações podem ter sido utilizadas para treinar o modelo e sua remoção pode fazer com que ele perca sua precisão.
O ChatGPT é legal?
A legalidade do uso de dados pessoais para treinar modelos de aprendizado de máquina, como o GPT-3, pode variar de acordo com as leis e regulamentações específicas de um determinado país ou região. Na União Europeia, por exemplo, o Regulamento Geral sobre a Proteção de Dados (GDPR) regulamenta o uso de dados pessoais e exige que eles sejam coletados e usados somente para fins específicos e legais.
"O GDPR está muito relacionado à restrição de finalidade", diz Afroz. "Portanto, você deve usar os dados conforme a finalidade para a qual os coletou. Se você quiser usá-los para outra coisa, terá que obter permissão. Mas os modelos de linguagem são o oposto disso, pois os dados podem ser usados para qualquer finalidade. Como o GDPR pode impor essa restrição?”
De acordo com o GDPR, as organizações devem obter o consentimento explícito dos indivíduos antes de coletar e usar seus dados pessoais. Há uma base legal para o processamento de dados pessoais para pesquisas científicas e históricas, mas o controlador deve cumprir os princípios e direitos do GDPR, como o direito de ser informado, o direito de acesso, o direito de retificação, o direito de exclusão, o direito de objeção e o direito à portabilidade dos dados. Parece, então, que os modelos de linguagem de aprendizado não estão em conformidade com o GDPR, o que pode se tornar uma grande barreira para o crescimento no futuro.
Nos Estados Unidos, não há nenhuma lei federal que regule especificamente o uso de dados pessoais para treinar modelos de aprendizado de máquina. No entanto, as organizações geralmente são obrigadas a cumprir leis dos EUA, como a Lei de Portabilidade e Responsabilidade do Seguro de Saúde (HIPAA) e a Lei de Proteção da Privacidade Online das Crianças (COPPA), se coletarem e usarem dados pessoais de indivíduos em determinadas categorias sensíveis. E na Califórnia, onde está localizada a maioria das grandes empresas de tecnologia, as corporações são obrigadas a seguir a Lei de Privacidade do Consumidor da Califórnia (CCPA), que tem requisitos de privacidade semelhantes aos do GDPR.
Com tudo isso dito, o desenvolvimento de modelos de IA, como o GPT-3, é um campo em constante evolução. Dessa forma, é provável que as leis e regulamentações que envolvem o uso de dados pessoais em IA mudem no futuro, o que torna importante manter-se atualizado sobre os últimos desenvolvimentos jurídicos nessa área.
A precisão do ChatGPT
Outra grande preocupação com os modelos do GPT é a desinformação e a falta de verificação. Tem sido amplamente divulgado que muitas IAs de linguagem de aprendizado apresentam informações confiáveis, mas de forma imprecisa. Essa falta de verificação de fatos pode potencialmente aumentar a disseminação de informações falsas, o que é especialmente perigoso em áreas sensíveis, como notícias e política. O Google, por exemplo, está planejando usar grandes modelos de linguagem de aprendizado para atender melhor aos clientes, mas ainda não está claro como eles vão trabalhar com a verificação de fatos.
Embora os grandes modelos de linguagem de aprendizado tenham o potencial de revolucionar a maneira como interagimos com a tecnologia e automatizamos determinadas tarefas, é importante considerar também as possíveis desvantagens e preocupações. À medida que o uso desses modelos se torna mais difundido, é fundamental abordar as preocupações com a privacidade e encontrar soluções para a questão do "direito de ser esquecido".