個人情報をインターネットから抽出する「スクレイピング」とは?

個人情報は一度公開すると、未公開にすることはできません。

情報漏洩に関する報道が連日のように続いています。2021年4月、Facebook、LinkedIn、Clubhouseの合計10億人以上のユーザーの個人情報の流出が明らかになりました。しかし、この3社はいずれも「ハッキングはなかった」と主張しています。個人情報を気にされている方は、矛盾しているように思えて、どうしたものかと思うかもしれません。一体どちらが正しいのでしょうか?

実は、どちらも正しいのです。それは、「スクレイピング」と呼ばれる行為が今回の情報漏洩の原因だからです。

スクレイピングとは何か、それがどのように行われるのかを理解し、今回のような事態から個人情報を守りましょう。

スクレイピングとは?

「スクリーンスクレイピング」、略して「スクレイピング」は、スクリプトやプログラムを利用し、ウェブサイトから情報を抽出する技術を意味します。

例えば、企業のウェブサイトに従業員の氏名や電話番号を公開した場合、それらの情報が異なるページにあったとしても、プログラムやスクリプトを利用し抽出し、一つのリストにまとめることができてしまいます。

スクレイピングは公開されているデータのみを収集している点において、ハッキングとは異なります。公開されている情報が集められ、アクセスや利用が容易になっただけです。もし非公開の情報を集めたら、それはハッキングや攻撃になります。スクレイピングでは、隠されていたり保護されていたりするデータは集められません。

今回明らかになった情報漏洩についても、Facebook、 LinkedIn、Clubhouseはもともと閲覧可能だったデータのスクレイピングが原因だとしています。つまり、各社のサーバー上で公開されている情報を収集し、一覧にまとめるスクリプトやプログラムが作られたのです。

スクレイピングは、既に公開されているバラバラの情報をまとめて、安易に保管、分類、検索できるようになるため、警戒する必要があります。

スクレイピングの対処法

Facebook、 LinkedIn、Clubhouseのユーザーは、登録時に提供した情報がプロフィールに公開されても構わないと思っていた方がほとんどでしょう。しかし、自分のデータが一覧に含まれることは望んでいないはずです。今後、自分の個人情報が巻き込まれないために、対策が必要です。

まず、公開情報はスクレイピングの対象になり得ることを充分に理解しましょう。ウェブサイトやSNSなどで一度公開した情報は盗まれたり、意図せぬ形で利用されたりする可能性があり、自分の手から離れてしまいます。

そのため、個人情報を最初から非公開にすることを推奨します。プライバシー設定を利用する、または広めたくない情報を提供しないように心掛けましょう。

では、広めたくないデータが流出した場合、何をすればよいのでしょうか?残念ながら、一度流出されたものは取り返しができないのです。そのため、自分の手から離れても良いデータだけを公開することが非常に重要です。

スクレイピングによる情報漏洩は今回の一連の出来事にとどまらず、今後も起こる可能性があります。拡散されてほしくない情報は、最初から非公開に設定して守りましょう。

この記事は2021年4月27日に公開されたUnderstanding scraping in the Facebook, LinkedIn, and Clubhouse data leaksの抄訳です。

--> -->