Współczesne złośliwe oprogramowania mutuje, aktualizuje i ponownie wdraża. Dlatego też uczenie maszynowe staje się nieodzownym składnikiem zabezpieczenia.
Umożliwia ono systemowi automatyczne wyciąganie wniosków na podstawie danych i obserwacji. Uczenie maszynowe jest najskuteczniejsze, gdy bazuje na danych „big data”. Im więcej danych otrzymują maszyny, tym dokładniej rozpoznają trendy i tworzą modele zachowań. Dotyczy to nie tylko branży zabezpieczeń, ale także każdej dziedziny, w której wykorzystuje się uczenie maszynowe.
Skąd właściwie wiadomo, kiedy mamy do czynienia z danymi „big data”? Dane tego typu rozpoznaje się na podstawie pięciu cech — objętości, prędkości, różnorodności, zmienności i wiarygodności. Czynniki te uznaje się za pięć filarów zbiorów „big data”. Określają one dynamiczny poziom danych, wymagany do prowadzenia skutecznej walki ze złośliwym oprogramowaniem przy użyciu uczenia maszynowego.
Objętość
Bez ogromnej ilości danych maszyny nie byłyby w stanie się uczyć. Avast ma ponad 400 milionów użytkowników na całym świecie — dzięki nim każdego dnia widzimy około miliona plików wykonywalnych. Komputer każdego użytkownika działa jak czujnik, który zbiera dla nas szczegółowe informacje o plikach — aż po najbardziej subtelne niuanse w kodzie. Nasze systemy przetwarzają tę anonimową masę danych (ok. 330 TB), a następnie analizują i klasyfikują każdy plik jako złośliwy lub bezpieczny. Uczenie maszynowe umożliwia systemowi podejmowanie inteligentnych decyzji, gdy natrafi on na niezidentyfikowane do tej pory pliki.
Prędkość
Wspomnieliśmy na wstępie, że złośliwe oprogramowanie rozpowszechnia się i ewoluuje bardzo szybko. Dlatego też proces detekcji musi przebiegać jak najsprawniej. Większość zagrożeń ma krótki żywot — niektóre istnieją zaledwie kilka minut. Zanim dojdzie do ich wykrycia, starają się przeobrazić w coś innego. Dotrzymać im kroku mogą tylko szybkie, zautomatyzowane systemy. Podejmowanie przez systemy błyskawicznych i prawidłowych decyzji nie byłyby możliwe bez dobrze zaprojektowanych i wyszkolonych algorytmów uczenia maszynowego, którym regularnie dostarcza się danych „big data”.
Różnorodność
Duże znaczenie ma również typ i charakter danych. Aby nasze algorytmy potrafiły rozróżniać złośliwe pliki od bezpiecznych, musimy dostarczać im i jednych, i drugich. Im bardziej różnorodne pliki analizuje system, tym bardziej inteligentny się staje. Ogromne ilości danych kontekstowych przekładają się na dokładniejsze procesy wykrywania zagrożeń, ponieważ łatwiej jest rozpoznać złośliwe zachowanie plików.
Zmienność
Każdy plik odebrany przez nasze systemy zostaje sklasyfikowany jako bezpieczny, potencjalnie niechciany lub złośliwy. Klasa pliku może się jednak z czasem zmienić, co sprawi, że nasze maszyny przyznają później plikom błędną klasyfikację. Gdy bezpieczny plik zostaje sklasyfikowany jako złośliwy, mówimy o „fałszywym alarmie”. Natomiast gdy złośliwy plik jest klasyfikowany jako bezpieczny, mamy do czynienia z „fałszywym bezpieczeństwem” (w testach antywirusowych jest to „pudło”). Nasz cel to zero przypadków „fałszywego bezpieczeństwa” (czyli zero „pudeł”) — nasze maszyny powinny wykrywać każdy złośliwy plik. Dążymy też do zminimalizowania liczby „fałszywych alarmów” — tj. nie chcemy, by blokowane były prawidłowe pliki. „Fałszywe alarmy” są powodowane głównie przez tzw. potencjalnie niechciane programy (PUP), które działają w szarej strefie między plikami bezpiecznymi a złośliwymi. Zmienność danych nie jest dla firmy Avast szczególnie wielkim wyzwaniem — nasze systemy zostały opracowane z myślą o bliskim zera współczynniku „fałszywego bezpieczeństwa” i relatywnie niskim współczynniku „fałszywych alarmów”.
Wiarygodność
Odbierane dane zawierają wiele „zakłóceń”, które mogą mieć wpływ na to, jak nasze maszyny identyfikują pliki. Na przykład czasem odnotowujemy awarie sprzętowe (pamięci lub dysków twardych), które mogą skutkować błędnymi obliczeniami skrótu SHA-256 (unikalnego identyfikatora pliku). Często natrafiamy również na uszkodzone pliki, które pojawiają się, gdy klient nie może ukończyć pobierania albo gdy pliki nie zostają prawidłowo przesłane do chmury. Aby uniknąć takich sytuacji, stworzyliśmy systemy uczenia maszynowego, które są na tyle zaawansowane, że potrafią odróżnić „zakłócenia” od prawidłowych danych.
W firmie Avast dane „big data” uwzględniają pięć wymienionych powyżej filarów. Dane te są również materiałem do uczenia maszynowego dla naszych systemów, dzięki czemu mamy dostęp do wiedzy, która daje nam pozycję największej na świecie sieci detekcji zagrożeń. To naprawdę ekscytująca praca. Czerpiemy ogromną radość ze znajdowania rozwiązań, które zapewniają ochronę przed najbardziej nikczemnymi atakami złośliwego oprogramowania. Przetwarzanie danych „big data” to tylko część naszej misji stworzenia najbardziej wszechstronnej i wiarygodnej infrastruktury zdolnej nieustannie zapewniać najwyższej klasy ochronę naszym klientom — gdziekolwiek się oni znajdują.