Les 5 V du Big Data dans le cadre du machine learning

Martin Bálek 30 août 2017

Comment Avast utilise le big data et le machine learning (apprentissage automatique) pour vous protéger ?

La plupart des malwares actuels s'infiltrent si fréquemment et rapidement via les modifications automatiques, les mises à niveau et les redéploiements que le machine learning devient un composant de sécurité indispensable.

Le machine learning - ou apprentissage automatique - permet à un système d'évoluer automatiquement grâce aux données et à l'observationLe machine learning est plus efficace lorsqu'il se fonde sur le big data : plus nous alimentons nos ordinateurs en informations, plus ils seront à même d'identifier des tendances et de créer des modèles.

Cela concerne aussi bien le domaine de la sécurité que tous ceux utilisant l'apprentissage automatique.

Comment savoir si des informations rentrent dans le « big data » ? Le big data se caractérise par 5 aspects : volume, vitesse, variété, variabilité et véracité. Considérés comme les piliers du big data, ils définissent le niveau dynamique des données requis pour tirer des leçons utiles dans la lutte contre les malwares.

Volume

Nos ordinateurs ne pourraient rien apprendre s'il n'existait pas de gros volumes de données. Chez Avast, nous voyons passer près d'un million de fichiers exécutables grâce à plus de 400 millions d'utilisateurs répartis dans le monde entier.

L'ordinateur de chaque utilisateur fait office de capteur et nous transmet des informations détaillées sur ces fichiers, jusqu'au plus petit bout de code.

Notre système traite cette quantité impressionnante de données (approximativement 330 Tio), l'analyse, apprend et classe chaque fichier comme malveillant ou fiable.

Le machine learning permet au système de prendre des décisions éclairées face aux fichiers qu'il rencontre pour la première fois.

Vitesse

Comme nous l'avons déjà mentionné, les malwares se répandent et évoluent rapidement. Leur détection se doit donc d'être aussi rapide que possible. La plupart des menaces sont éphémères.

Certaines ne durent pas plus de quelques minutes. Avant d'être détectées, les menaces tentent de se transformer. Le seul moyen de les contrer est d'utiliser des systèmes automatisés et rapides.

Ces systèmes ne peuvent pas prendre des décisions appropriées et instantanées sans un apprentissage automatique qualifié et élaboré régulièrement alimenté en big data.

Variété

Le type et la nature des données ont également leur importance. Nous devons alimenter nos moteurs en fichiers fiables et malveillants afin qu'ils puissent les différencier. Plus les fichiers analysés sont variés, plus notre système devient intelligent.

L'utilisation de grandes quantités de données contextuelles permet une détection des menaces plus précise, dans la mesure où les comportements malveillants au sein des fichiers deviennent plus facilement reconnaissables.

Variabilité

Chaque fichier reçu par notre système est catégorisé comme fiable, potentiellement indésirable ou malveillant. Toutefois, la catégorie d'un fichier peut évoluer au fil du temps, menant à des erreurs de catégorisation commises par nos ordinateurs.

Un fichier fiable catégorisé comme malveillant est appelé « faux positif » ; à l'inverse, un fichier malveillant catégorisé comme fiable est appelé « faux négatif » (ou « manqué » dans les tests antivirus). Notre objectif est d’obtenir un taux de 0 « faux négatif », soit aucun raté, ce qui implique que nos ordinateurs détectent tous les fichiers malveillants.

Nous souhaitons réduire autant que possible le nombre de « faux positifs » (c'est-à-dire éviter le blocage de fichiers légitimes).

Les PUP (Potentially Unwanted Programs, logiciels potentiellement indésirables), ni fiables ni malveillants, peuvent notamment provoquer la détection de « faux positifs ».

Enfin, la variabilité des données ne pose aucun problème à Avast, puisque nous avons développé nos systèmes de façon à ne manquer aucun fichier ou presque et à obtenir des taux de « faux positifs » relativement bas.

Véracité

Les données reçues arrivent à grand bruit et sont susceptibles d'influencer la façon dont nos ordinateurs détectent les fichiers. Par exemple, nous constatons parfois des défaillances de matériel tel que des clés USB ou des disques durs générant une erreur de calcul du SHA-256 (empreinte unique d'un fichier).

Nous analysons également un grand nombre de fichiers endommagés suite à un problème de téléchargement côté client ou à un chargement incorrect sur notre cloud. Pour éviter ce genre de situation, nous avons élaboré des systèmes de machine learning suffisamment robustes pour différencier signal et bruit.

Chez Avast, notre big data englobe ces 5 V. En outre, il alimente notre machine learning qui, à son tour, nous offre les connaissances requises pour continuer de proposer le plus vaste réseau de détection des menaces au monde.

La tâche est d'envergure, et nous avons à cœur de proposer des solutions défensives contre les malwares les plus virulents. La gestion du big data ne représente qu'une partie de notre mission globale consistant à bâtir une infrastructure solide et fiable capable d'offrir une protection optimale à nos utilisateurs, où qu'ils se trouvent.

Merci d’utiliser Avast Antivirus et de nous recommander à vos amis et votre famille.Pour toutes les dernières actualités, n’oubliez pas de nous suivre sur FacebookTwitter et Google+.

--> -->