Entender scraping nos vazamentos de dados do Facebook, LinkedIn e Clubhouse

Christopher Budd 27 abr 2021

Quando se trata de seus dados, é melhor lembrar que o público é sempre público

Nas últimas semanas, os dados de milhões de usuários do Facebook, do LinkedIn e do Clubhouse vazaram on-line. Na verdade, se você somar todos eles, o vazamento equivale a informações de mais de 1 bilhão de usuários coletivamente. Mas você também pode ouvir as três empresas falando que não havia um hack. Então, de que se trata? 

Se você está preocupado com suas informações pessoais, vai querer saber o que está acontecendo, já que essas duas coisas parecem contraditórias. Por um lado, é fato que os dados de mais de um bilhão de usuários desses serviços está, de repente, disponível on-line. Por outro lado, os três serviços estão dizendo que “não foram hackeadas”. Essas duas afirmações podem ser verdadeiras? E, caso sim, como isso é possível?

Ambas são verdadeiras. Elas são verdadeiras porque por trás de todos esses três eventos encontra-se algo chamado “scraping” (ou “raspagem” em tradução livre). Esses três serviços culparam “scraping” pela coleta de dados, e scraping é diferente de um hack ou de um ataque. 

A diferença entre “scraping” e “hacking” pode não ser relevante para você: se seus dados estiverem expostos e você não queria que isso acontecesse, pouco importa qual foi o evento que causou o vazamento, o resultado final é o mesmo. E, infelizmente, você é responsável por proteger suas informações contra scraping. Ninguém vai fazer isso por você.

Por esse motivo, é importante entender o que scraping é e como funciona. Dessa forma, você pode tomar medidas para proteger melhor suas informações pessoais de situações parecidas no futuro.

O que é scraping?

“Scraping” é abreviação de “scraping de tela" ("raspagem de tela” em tradução livre). Scraping de tela é quando um programa ou script obtém informações de uma página web ou de um serviço e as copia, basicamente “raspando” as informações da tela.


Leitura adicional:
Tudo o que você deve saber sobre scraping nas redes sociais
O vazamento de dados do Facebook: O que você deve fazer hoje
Passos simples para recuperar sua privacidade do Facebook


Por exemplo, se você tem um site público com nomes e números de telefone das pessoas em diferentes departamentos nas páginas separadas, alguém pode construir um programa ou script para “raspar” esse site e fazer uma lista de todos esses nomes e números de telefone que estão em páginas separadas.

Em alguns casos, scraping pode ser útil porque junta os dados dispersos em um só lugar. Consultar uma única lista de nomes e números de telefone é mais fácil do que ter que olhar em várias páginas web. 

Mais importante, scraping reúne os dados que já estão acessíveis. Em nosso exemplo, usamos um site público. Assim, a única coisa que aconteceu é que as informações públicas ficaram reunidas e mais fáceis de acessar e usar. Se scraping coletasse as informações que não fossem acessíveis, isso seria um hack ou um ataque. Mas scraping em si não coleta dados ocultos ou protegidos: coleta apenas os dados que já são públicos e disponíveis.

Todas as três empresas indicaram que todas as informações vazadas já estavam disponíveis publicamente e que o vazamento é o resultado de scraping. Em outras palavras, as pessoas escreveram scripts ou programas que copiam e coletam informações que já eram públicas para criar essas listas gigantes de dados.

Os resultados de scraping são assustadores porque não foram os dados novos que vazaram. São informações já públicas, que agora estão reunidas em uma forma diferente, mais fácil de armazenar, catalogar e pesquisar.

O que você pode fazer quanto à scraping

Há grandes chances de que, quando você se inscreveu para um desses serviços e disponibilizou suas informações publicamente, você queria que elas sejam visualizadas em uma página do Facebook, do LinkedIn ou do Clubhouse. Você provavelmente não esperava que as informações ficariam disponíveis publicamente em grandes listas de dados como essa. É uma coisa saber que alguém pode encontrar o seu número de telefone visitando uma página no Facebook. É totalmente outra saber que essas informações agora estão em arquivos grandes e pesquisáveis na Internet.

Por isso, a distinção entre um “hack” e uma “scraping” deve ser mais importante para você.

Essas empresas estão certas: elas não foram hackeados, essas informações já eram públicas. Mas se você não quer que suas informações terminem neste formato, você precisa cuidar disso por conta própria.

Primeiro, é importante entender que qualquer informação pública sempre corre risco de scraping. Seja em uma página web ou em uma plataforma de redes sociais, é melhor lembrar que os dados públicos são sempre públicos. Quando os dados são públicos, você não tem controle sobre quem os copia e o que ele faz com isso. Se forem públicos, os dados podem estar na internet fora do seu controle para sempre.

Segundo, o único jeito de garantir que seus dados públicos não sejam raspados, nem usados de maneiras inesperadas, é não torná-los públicos. Se você não se sente confortável com a possibilidade de as informações terminarem em listas como essa, proteja-as com controles de privacidade (quando disponíveis) ou, melhor ainda, não as divulgue.

Se seus dados estiverem disponíveis sem sua intenção, o que você pode fazer? Infelizmente, nada. Por isso, é muito importante ter certeza de que as informações que você torna públicas são as informações que você está disposto a deixar de controlar. Porque uma vez perdidas, não há como recuperá-las.

No final das contas, esses vazamentos de dados são um lembrete de que as informações públicas são públicas e se você deseja proteger as suas, a única maneira é não torná-las públicas. É importante entender isso porque é muito provável que no futuro haverá mais incidentes de scraping como esse. E como vimos nesses casos, a única pessoa que pode proteger e protegerá seus dados contra scraping é você. E uma vez que os dados são perdidos, não há como recuperá-los.

--> -->