Comprendre le scraping dans les fuites de données de Facebook, LinkedIn et Clubhouse

Christopher Budd 2 mai 2021

Lorsqu'il s'agit de vos données, il est préférable de se rappeler que ce qui est public est et sera toujours public.

Au cours des dernières semaines, les données de millions d'utilisateurs de Facebook, LinkedIn et Clubhouse ont fuité en ligne. En fait, si l'on fait le total de ces trois entreprises, les informations de plus d'un milliard d'utilisateurs ont fuité. Mais vous avez peut-être aussi entendu les trois entreprises affirmer qu'il n'y a pas eu de piratage. Alors, de quoi s'agit-il ?

Ces deux choses semblent contradictoires. D'une part, les informations de plus d'un milliard d'utilisateurs de ces services sont soudainement disponibles en ligne. D'autre part, les trois services affirment qu'il n'y a pas eu de « piratage ». Ces deux affirmations peuvent-elles être vraies ? Si oui, comment ?

Les deux sont vraies. Le problème derrière ces trois événements est appelé « scraping » ou racler l'écran en français. Les trois services ont finalement attribué la collecte des données au « scraping », qui est différent d'un piratage ou d'une attaque.

La différence entre « scraping » et « hacking » n'a peut-être aucune importance pour vous : Si vos données sont en circulation suite à l'un ou l'autre de ces événements et que vous ne voulez pas qu'elles y soient, le résultat final est le même. Et, malheureusement, c'est à vous qu'il incombe de protéger vos informations contre le scraping. Personne d'autre ne le fera pour vous.

C'est pourquoi il est important de comprendre ce qu'est le raclage et comment il fonctionne. Ainsi, vous pourrez prendre des mesures pour mieux protéger vos informations personnelles contre ce type de situation à l'avenir.


Qu'est-ce que le « scraping » ?

« Scraping » est une abréviation de « screen scraping ». On parle de « screen scraping » lorsqu'un programme ou un script prend des informations d'une page Web ou d'un service et les copie, ce qui revient à « gratter/racler » les informations à l'écran.


Pour en savoir plus :
Fuite de données de Facebook : Ce que vous devez faire aujourd'hui
5 minutes pour récupérer votre vie privée auprès de Facebook


Par exemple, si vous disposez d'un site Web public contenant les noms et numéros de téléphone de personnes travaillant dans différents services sur des pages Web distinctes, quelqu'un peut créer un programme ou un script pour « gratter » ce site Web et rassembler tous ces noms et numéros de téléphone sur toutes ces pages distinctes et les regrouper en une seule liste.

Dans certains cas, le scrapping peut s'avérer utile car il permet de rassembler des données dispersées en un seul endroit. Il est plus facile d'utiliser une liste unique de noms et de numéros de téléphone que de chercher dans plusieurs pages Web.

Plus important encore, le scraping rassemble des données qui sont déjà accessibles. Dans notre exemple, il s'agit d'un site Web public, donc la seule chose qui s'est produite est que des informations déjà publiques ont été rassemblées et sont plus faciles à consulter et à utiliser. Si le raclage permettait de recueillir des informations qui n'étaient pas déjà accessibles, il s'agirait d'un piratage ou d'une attaque. Mais le scraping en lui-même ne rassemble pas des données qui ont été cachées ou protégées : il ne fait que collecter des données qui étaient déjà publiques.

Les trois entreprises ont indiqué que les informations disponibles étaient déjà accessibles au public et qu'elles sont le résultat d'une opération de « scraping ». En d'autres termes, des personnes ont écrit des scripts ou des programmes qui copient et rassemblent des informations qui étaient déjà publiques sur leurs services afin de créer ces listes massives de données.

Ce qui rend les résultats du « scraping » effrayants, ce n'est pas la fuite de nouvelles données, mais le fait que des informations déjà publiques sont maintenant rassemblées sous une forme différente, plus facile à stocker, à cataloguer et à rechercher.



Ce que vous pouvez faire contre le scraping

Il est probable que lorsque vous vous êtes inscrit à l'un de ces services et que vous avez rendu vos informations publiques, vous étiez d'accord pour que ces informations soient publiées sur une page Facebook, LinkedIn ou Clubhouse. Vous ne vous attendiez peut-être pas à ce que ces informations soient accessibles au public dans des listes de données volumineuses comme celle-ci. C'est une chose de savoir que quelqu'un peut trouver votre numéro de téléphone en naviguant sur une page Facebook et en le trouvant là. C'en est une autre de savoir que ces informations se trouvent désormais dans des fichiers volumineux et consultables sur Internet.

C'est là que la distinction entre « hack » et « scraping » devrait être la plus importante pour vous.

Ces entreprises ont raison : elles n'ont pas été piratées ; les informations étaient déjà publiques. Mais si vous ne voulez pas que vos informations se retrouvent dans ce format, vous devez prendre les choses en main.

Tout d'abord, il est important de comprendre que toute information publique est toujours exposée au risque de scraping. Qu'il s'agisse d'une page Web ou d'une plateforme de médias sociaux, il est préférable de se rappeler que, lorsqu'il s'agit de données, ce qui est public est toujours public. Lorsque les données sont publiques, vous n'avez aucun contrôle sur ceux qui les copient et sur ce qu'ils en font. Si elles sont publiques, elles peuvent se trouver sur l'internet, hors de votre contrôle, pour toujours.

Deuxièmement, la seule façon de s'assurer que vos données publiques ne sont pas récupérées ou utilisées d'une manière inattendue est tout simplement de ne pas les rendre publiques. Si vous n'êtes pas à l'aise avec le fait que vos informations puissent se retrouver dans des listes de ce type, protégez-les en utilisant des contrôles de confidentialité (s'ils sont disponibles) ou, mieux encore, ne les rendez pas publiques du tout.

Et si vous avez maintenant des données que vous ne voulez pas voir apparaître, que pouvez-vous faire ? Malheureusement, rien. C'est pourquoi il est si important de s'assurer que les informations que vous diffusez sont des informations dont vous êtes prêt à perdre le contrôle. Parce qu'une fois qu'elles sont publiées, il est impossible de les récupérer.


NOUS AVONS BESOIN DE VOUS : aidez-nous à combattre les pirates informatiques en nous envoyant les e-mails et SMS frauduleux que vous recevez (transfert d'e-mails, liens suspicieux ou captures d'écran) à l'adresse signalement@avast.com

Avast est un leader mondial de la cybersécurité, protégeant des centaines de millions d'utilisateurs dans le monde. Protégez tous vos appareils avec notre antivirus gratuit primé. 

--> -->