Tout ce que vous devez savoir sur le scraping sur les réseaux sociaux

David Strom 3 sept. 2020

Les scrapers peuvent accéder plus facilement aux informations de votre compte que vous ne le pensez

Le mois dernier, une fuite massive de données a révélé plus de 300 millions de comptes différents provenant de plateformes de réseaux sociaux. La collection comprenait 192 millions d'enregistrements extraits de deux collections Instagram différentes, ainsi que 42 millions d'enregistrements extraits de TikTok et 4 millions d'enregistrements supplémentaires extraits de YouTube.

Les enregistrements incluent les noms d'utilisateur, les photos de profil, les e-mails, les numéros de téléphone, l'âge et le sexe, ainsi que des détails sur les abonnés et d'autres engagements pour chaque compte. La fuite concernait un ensemble de trois partages open data de la société Social Data : quelques heures après avoir été notifiés, les actions étaient correctement sécurisées.

Il y a plusieurs choses qui sont intéressantes à propos de cette fuite : sa source, comment les données ont été obtenues et ce que cela signifie pour votre propre consommation de réseaux sociaux.

Lectures complémentaires:

Social Data est basé à Hong Kong et a été créé après la disparition d'une autre société appelée Deep Social. Cette dernière société semble être le premier collecteur des données divulguées. Les deux sociétés fournissent des données démographiques et psychographiques sur les influenceurs des réseaux sociaux aux grandes marques de consommation. Deep Social a été fermé en 2018 après que Facebook l'aurait interdit d'utiliser ses interfaces de données marketing et menacé de poursuites judiciaires. Social Data a commencé ses opérations en 2019. Il existe de nombreuses autres agences de « marketing d'influence » qui vendent ce type de données, au cas où vous souhaiteriez en savoir plus sur ce coin de l'univers Internet.

Comme nous le savons tous, les utilisateurs ne paient pas pour prendre en charge les plateformes de réseaux sociaux - ils gagnent de l'argent en vendant de la publicité. Pour être efficaces, les plates-formes doivent suivre qui accède à un contenu particulier et les plates-formes ont toutes différentes interfaces informatiques pour permettre aux annonceurs de cibler où leurs annonces apparaissent en fonction de cette activité.

Mais ces interfaces peuvent également être abusées, et c'était le problème avec ce que Deep Social a fait. Ces agences peuvent fonctionner de deux manières : l'une consiste à respecter les règles et à obtenir les données utilisateur comme Facebook et d'autres l'ont prévu. L'autre consiste à retirer les données directement de la page Web de chaque compte et à espérer que les entreprises de réseaux sociaux ne les détectent pas.

Le scrapping de sites Web a lieu presque depuis que le Web a été inventé pour la première fois au début des années 1990. Il y a de bonnes chances que quelqu'un ait copié votre contenu Web et l'héberge comme le sien ailleurs en ligne. Ce qui s'est passé, c'est que les outils de scrapping automatisés ont amélioré leur capacité à éviter la détection. Cloudflare a ici une explication plus technique sur les opérations de ces « robots gratteurs » comme on les appelle.

Cependant, les robots ne sont pas parfaits et les gens se font prendre. L'exemple le plus frappant est Clearview.ai, qui a scrappé les images des utilisateurs puis commercialisé en masse sa technologie de reconnaissance faciale. Un autre cas s'est produit en 2014 avec LinkedIn, où quelqu'un a récupéré des milliers de profils personnels et les a ensuite utilisés dans un site créé à des fins de recrutement.

Quel type de contenu est disponible pour les scrapers ? Voici une capture d'écran de Comparitech qui illustre le niveau d'informations détaillées du compte Instagram d'un utilisateur.

grattage
Crédit: Comparitech

Ce que vous pouvez faire pour réduire vos propres risques

Il existe des moyens de se défendre contre les scrapers, selon qu'il s'agit d'un contenu professionnel ou personnel que vous essayez de protéger. Il existe divers outils qui peuvent aider les entreprises à détecter lorsque leur contenu Web a été récupéré et réutilisé ailleurs, notamment à partir de Cloudflare et Imperva. Mais ceux-ci sont hors de portée à des fins personnelles, et cela signifie que vous devez être plus vigilant sur ce que vous publiez et comment vous publiez vos photos, vidéos et pensées concises en ligne. Vous devriez penser à ce qui suit :

  • Activez-vous le balisage géographique sur vos photos et vidéos ? Si vous possédez un téléphone Android, vous devriez également consulter certaines recommandations de confidentialité.

  • Vos comptes sociaux permettent-ils à quiconque de voir votre adresse e-mail, votre numéro de téléphone et votre date de naissance ? Vous avez probablement inclus ces informations lors de votre première inscription sur Facebook et al. à l'époque et vous n'avez probablement pas touché aux commandes de vos données privées depuis. Vous devez examiner ces paramètres sur chaque plateforme sociale que vous utilisez.

NOUS AVONS BESOIN DE VOUS : aidez-nous à combattre les pirates informatiques en nous envoyant les e-mails et SMS frauduleux que vous recevez (transfert d'e-mails, liens suspicieux ou captures d'écran) à l'adresse signalement@avast.com

Avast est un leader mondial de la cybersécurité, protégeant des centaines de millions d'utilisateurs dans le monde. Protégez tous vos appareils avec notre antivirus gratuit primé. 

--> -->