Os 5 Vs do Big Data para a aprendizagem de máquina da segurança moderna

Martin Bálek 22 ago 2017

Fique por dentro da tecnologia: como a Avast usa o Big Data e o aprendizado de máquina para proteger você.

A maioria dos malwares de hoje sofre modificações ou mutações automatizadas, atualizações e redistribuição com tanta frequência e rapidez que o aprendizado de máquina é um componente vital das soluções de segurança. O aprendizado automático de máquina permite que um sistema aprenda automaticamente com os dados e as informações que recebe. O aprendizado de máquina é mais eficaz quando o “conteúdo” aprendido é obtido através de dados importantes e significativos: quanto mais informações alimentamos nossas máquinas, mais precisamente elas identificam tendências e criam modelos. Isso é verdade não só na segurança, mas em todas as áreas que utilizam a aprendizagem de máquina.

Então, como sabemos se a informação é de que dispomos é realmente Big Data? Para serem relevantes e significativos, os dados precisam de 5 características: volume, velocidade, variedade, variabilidade e veracidade. Estes são considerados os cinco pilares do Big Data, e eles definem o nível dinâmico de dados que é necessário para se obter um aprendizado verdadeiramente útil na luta contra o malware.

Volume

Sem grandes quantidades de dados, nossas máquinas não seriam capazes de aprender. Na Avast, graças a mais de 400 milhões de clientes em todo o mundo, vemos cerca de um milhão de arquivos executáveis por dia. A máquina de cada usuário atua como um sensor, fornecendo informações detalhadas sobre esses arquivos até os menores detalhes do seu código. Nosso sistema processa essa quantidade maciça de dados (aproximadamente 330 TiB), analisando, aprendendo e classificando cada arquivo como malicioso ou limpo. O aprendizado da máquina permite que o sistema tome decisões inteligentes quando eles encontrarem arquivos que nunca foram vistos.

Velocidade

Como mencionamos, o malware se espalha e sofre mutações rapidamente, então a detecção deve ser o mais rápido possível. A maioria das ameaças é de curta duração - alguns realmente existem por apenas alguns minutos. Antes que eles possam ser detectados, as ameaças tentam se transformar em outra coisa. A única maneira que de sobreviver nessa batalha é através de sistemas rápidos e automatizados. A tomada de decisão instantânea e correta por parte desses sistemas não pode acontecer sem um aprendizado automatizado bem projetado e bem treinado, que seja continuamente alimentado por Big Data.

Variedade

O tipo e a natureza dos dados também são essenciais. Precisamos alimentar nossos sistemas tanto de arquivos limpos quanto de maliciosos, para que eles aprendam a distinguir entre eles. Quanto maior a diversidade dos arquivos que o nosso sistema analisa, mais inteligente ele se tornará. Grandes quantidades de dados contextualizados resultam em uma detecção de ameaças mais precisa, uma vez que o comportamento malicioso dos arquivos se torna mais facilmente reconhecível.

Variabilidade

Todos os arquivos recebidos pelo nosso sistema são categorizados como limpos, potencialmente indesejados ou maliciosos. A classificação de um arquivo, no entanto, pode mudar ao longo do tempo, fazendo com que nossas máquinas classifiquem, temporariamente, de uma forma falsa. Quando um arquivo limpo é classificado como infectado, ele é chamado de “falso positivo”, e quando um arquivo infectado é classificado como limpo, é chamado de “falso negativo” (ou “falta” de detecção nos testes de antivírus). Nosso objetivo é ter uma taxa “falso negativo” zero, isto é, nossas máquinas devem capturar todos os arquivos maliciosos. Nós também queremos ter o menor número possível de “falsos positivos” (isto é, que nenhum arquivo legítimo seja bloqueado). Especialmente os PUP (programas potencialmente indesejados) podem causar “falsos positivos”, pois se encontram em uma “zona cinzenta” entre a limpa e a maliciosa. Em última análise, a variabilidade dos dados não é para nós um grande desafio porque desenvolvemos nossos sistemas para que funcionem sem falhas e taxas relativamente baixas de “falsos positivos”.

Veracidade

Os dados que recebemos vem com muita interferência que, em princípio, pode influenciar a forma com que as nossas máquinas detectam os arquivos. Por exemplo, às vezes, falhas de hardware em unidades removíveis ou discos rígidos podem produzir arquivos cuja impressão digital única (SHA-256) seja incorretamente calculada. Também surgem arquivos danificados quando o usuário não consegue fazer completar um download, ou quando os arquivos não foram carregados corretamente para a nuvem. Para evitar situações como essas, construímos um sistema de aprendizado de máquina  robusto o suficiente para distinguir o sinal daquilo que é ruído.

Na Avast, nossos Big Data contêm esses 5 Vs. Além disso, essa grande quantidade de dados alimenta a nossa aprendizagem de máquina, o que, por sua vez, nos arma com o conhecimento que precisamos para continuar a ser a maior rede de detecção de ameaças do mundo. Este é um trabalho emocionante, e adoramos encontrar soluções defensivas contra malwares cada mais perigosos que andam por aí. Manusear Big Data é apenas uma parte da nossa missão de construir a infraestrutura mais robusta e confiável do mundo para fornecer uma proteção de altíssimo nível aos nossos clientes e usuários, onde quer que estejam.

--> -->