Datenschutz & Privatsphäre

Das “Scraping” bei den Datenlecks von Facebook, LinkedIn und Clubhouse

Christopher Budd, 30 April 2021

Bedenken Sie, dass online geteilte Daten immer an die Öffentlichkeit gelangen können.

In den letzten Wochen sind die Daten von Millionen von Facebook-, LinkedIn- und Clubhouse-Nutzern online durchgesickert. Wenn Sie die User*innen von allen drei Fällen zusammenzählen, handelt es sich sogar um Informationen von über einer Milliarde Nutzer*innen insgesamt. Aber Sie haben vielleicht auch gehört, dass alle drei Unternehmen sagten, dass es keinen Hack gab. Was ist also los? 

Alle drei Dienste haben letztlich "Scraping" für die Sammlung der Daten verantwortlich gemacht - und Scraping ist streng genommen etwas anderes als ein Hackerangriff. Der Unterschied zwischen "Scraping" und "Hacking" mag für Sie keine Rolle spielen: Wenn Ihre Daten in einem Hackerforum, im Darknet oder sonst irgendwo im Internet auftauchen, ist das Endergebnis das Gleiche. Leider ist es Ihre Aufgabe, Ihre Daten vor Scraping zu schützen. Aus diesem Grund ist es wichtig, zu verstehen, was Scraping ist und wie es funktioniert.

Was ist Scraping?

"Scraping" ist eine Verkürzung von "Screen Scraping". Beim Screen Scraping nimmt ein Programm oder Skript Informationen von einer Webseite oder einem Dienst und kopiert sie und fasst sie in einer neuen Datei zusammen. Wenn Sie beispielsweise eine Unternehmens-Website mit Namen und Telefonnummern von Mitarbeitern verschiedener Abteilungen auf separaten Webseiten haben, kann jemand ein Programm oder Skript erstellen, um diese Website zu "scrapen" und alle Namen und Telefonnummern zu sammeln und sie in einer Liste zusammenzufassen. 

Je nach Anwendungsfall kann Scraping tatsächlich nützlich sein, weil es verstreute Daten an einem Ort konsolidiert. Wenn Scraping Informationen sammelt, die nicht bereits öffentlich sind, wäre das ein Hack. Dies ist der Unterschied. 

Im Fall von Facebook, LinkedIn und Clubhouse haben alle drei Unternehmen angegeben, dass die geleakten Informationen über Nutzer*innen bereits öffentlich verfügbar waren und die Listen das Ergebnis von Scraping sind. Das Beängstigende hier ist nicht, dass neue Daten durchgesickert sind, sondern dass Informationen, die bereits öffentlich waren, nun in einer anderen Form gesammelt wurden, die einfacher zu speichern, zu katalogisieren und zu durchsuchen ist.

Was Sie gegen Scraping tun können

Wahrscheinlich haben Sie sich, als Sie sich bei einem dieser Dienste angemeldet und Ihre Daten öffentlich gemacht haben, damit einverstanden erklärt, dass Ihre Daten auf einer Facebook-, LinkedIn- oder Clubhouse-Seite zu sehen sind. Sie haben wahrscheinlich nicht damit gerechnet, dass diese Informationen am Ende in großen Datenlisten öffentlich zugänglich sein könnten. Es ist eine Sache zu wissen, dass jemand Ihre Telefonnummer finden kann, indem er zu einer Facebook-Seite navigiert und sie dort findet. Dass diese Informationen nun in großen, durchsuchbaren Dateien im Internet stehen, ist ein anderes Thema.

Zunächst einmal ist es wichtig zu verstehen, dass jede Information, die öffentlich ist, immer dem Risiko des Scrapings ausgesetzt ist. Egal, ob es sich um eine Webseite oder eine Social-Media-Plattform handelt. Wenn Daten öffentlich sind, haben Sie keine Kontrolle darüber, wer sie kopiert und was damit gemacht wird. 

Zweitens: Der einzige Weg, um sicherzustellen, dass Ihre Daten nicht abgegriffen oder auf eine Weise verwendet werden, die Sie nicht erwarten, ist, sie einfach nicht zu veröffentlichen. Schützen Sie Ihre Daten entweder durch die Verwendung von Datenschutzeinstellungen (falls vorhanden) oder, noch besser, geben Sie sie gar nicht erst heraus.

Letztendlich sind diese Datenlecks eine Erinnerung daran, dass viele Informationen öffentlich sind. Wenn Sie Ihre persönlichen Daten schützen wollen, ist der einzige Weg, diese nicht zu veröffentlichen. Unsere Experten gehen davon aus, dass es in Zukunft mehr Scraping-Vorfälle geben wird.

Interessiert an mehr News von uns? Folgen Sie uns auf Facebook und auf Twitter!