脅威の研究

機械学習のためのビッグデータの 5 つの「V」

Martin Bálek, 2017年9月25日

セキュリティソフトウェア製品に「次世代モデル」の導入に成功したアバストが、ビッグデータと機械学習を利用してユーザーを保護する方法を解説しています。

現在のほとんどのマルウェアでは、自動化された改変、アップグレード、再デプロイメントが非常に頻繁かつ迅速に行われているため、機械学習がセキュリティ ソリューションの必要不可欠なコンポーネントになっています。機械学習により、システムはデータと監察結果から自動的に学ぶことができます。最も効果的な機械学習は、ビッグデータを通じて学習結果が得られた場合に成立します。機械に提供する情報が多ければ多いほど、動向を識別してモデルを作成する精度が高まります。これはセキュリティ分野に限らず、機械学習を利用するあらゆる分野に当てはまります。

 

それでは、情報が実際に「ビッグデータ」であるか否かは、どうすれば分かるのでしょうか? ビッグデータは数量 (Volume)、速度 (Velocity)、多様性 (Variety)、変動性 (Variability)、正確さ (Veracity) の 5 つの特質によって特徴づけられます。これらはビッグデータの 5 つの柱だと考えられており、これらの特質によって、マルウェアとの闘いで本当に役に立つ学習に必要なデータの動的レベルが定まります。

数量 (volume)

大量のデータなしには、機械が学習することは不可能です。アバストでは、4 億人を超える世界中のお客様のご協力を得て、1 日当たり約 100 万の実行可能ファイルに目を通しています。それぞれのお客様のコンピュータがセンサーとしての役割を果たし、これらのファイルに関する詳細な情報を、コードの最も小さなニュアンスに至るまで提供してくれるのです。弊社のシステムは、この大量のデータ (約 330 テビバイト) を処理し、分析と学習を行って、各ファイルを悪意のあるものとクリーンなものに分類します。機械学習により、システムはこれまで目にしたことがないファイルに出会った場合に知的判定を行うことができます。

速度 (velocity)

すでに述べたとおり、マルウェアは急速に拡散し、変形するため、検出は可能な限り素早く行う必要があります。ほとんどの脅威は寿命が短く、実際には数分間しか存在しないものもあります。脅威は、検出される前に別の形に姿を変えようと試みます。私たちが後れを取らずにいるための唯一の方法は、自動化された高速なシステムを利用することです。そのシステムによって瞬時に下される正確な判断は、巧みに設計され、十分なトレーニングを経た機械学習に定期的にビッグデータを「与える」ことなしには不可能です。

多様性 (variety)

データの種類と性質も重要です。エンジンにはクリーンなファイルと悪意のあるファイルの両方を提供し、両者を区別する方法を学習させる必要があります。分析するファイルの多様性が豊かであれば、弊社のシステムはそれに応じて賢くなります。大量の文脈データがあれば、ファイル内における悪意のある挙動の認識が容易になるため、脅威の検出精度が高まります。

変動性 (variability)

弊社のシステムが受け取るすべてのファイルは、クリーンなもの、不要だと考えられるもの、悪意のあるもののいずれかに分類されます。しかし、ファイルの分類は時の経過とともに変化し、機械による誤検出の原因となります。クリーンなファイルが悪意のあるものとして分類された場合は「誤検出」と呼ばれ、悪意のあるファイルがクリーンなものとして分類された場合は「検出漏れ」(またはアンチウイルス テストにおいては「失敗」) と呼ばれます。弊社の目標は「検出漏れ」の率をゼロにすることです。失敗がゼロであれば、機械が悪意のあるファイルをすべて捕らえたことになります。また、「誤検出」もできる限り少なくしたい (すなわち、正当なファイルがブロックされることをなくしたい) と考えています。特に、PUP (potentially unwanted program、不要だと考えられるプログラム) はクリーンなものと悪意のあるものとの間のグレーゾーンに属するため、「誤検出」を引き起こす可能性があります。究極的には、データの変動性がアバストにとって大きな問題となることはありません。なぜなら、システムの開発によってすでに失敗はほぼなくなり、比較的低い「誤検出」率が実現しているからです。

正確さ (veracity)

弊社が受け取るデータには多くのノイズが含まれており、機械がファイルを検出する方法に影響が及ぶ可能性があります。例えば、時としてメモリ ドライブやハードドライブなどのハードウェアの不具合を目にしますが、これによって SHA-256 (ファイル固有の指紋) が誤って算出される可能性があります。また、数多くの破損ファイルも見受けられますが、これはクライアントがダウンロードできない場合、またはファイルが弊社のクラウドに正しくアップロードされなかった場合に発生します。このような状況を避けるために、弊社では十分に堅固で信号とノイズを区別できる機械学習システムを構築しました。

アバストでは、ビッグデータが上述の 5 つの「V」を網羅しています。さらに、このビッグデータが機械学習を推し進めており、それによって弊社は世界最大の脅威検出ネットワークを維持するために必要となる知識を身に付けています。これは私たちの心を躍らせる仕事であり、私たちは世界で流行している最も邪悪なマルウェアに対する防御策を見つけることを楽しんでいます。ビッグデータの処理は、弊社のお客様がどこにいようとも一流のプロテクションを一貫して提供できる、最も堅固で信頼性の高いインフラストラクチャを構築するという弊社の使命全体のほんの一部にすぎません。