Nowy model filtrowania spamu

Użytkownik poczty elektronicznej utonąłby w spamie, gdyby nie automatyczne filtrowanie, oparte na różnorodnych algorytmach. Niestety, nie jest ono doskonałe i czasem przepuszcza niechciane wiadomości lub niepotrzebnie wychwytuje te, które chcemy otrzymać. Grupa indyjskich informatyków opracowała nowy model wykrywania spamu, oparty o nowoczesną technikę uczenia maszynowego, który ma obiecujące wyniki i – przede wszystkim – bardzo szybko się uczy.

20.03.2022Aktualizacja: 21.03.2022Opublikował: RK

Spam to wiadomości, których nie chcemy dostawać, zwykle wysyłane do dużej liczby przypadkowych użytkowników, których bazę posiada wysyłający. Większość z tych wiadomości to reklamy, ale niektóre zawierają linki phishingowe – które udają istotne dla nas funkcje i próbują wyłudzić istotne dane – albo złośliwe oprogramowanie.

Automatyczne filtry, które przesiewają nasze skrzynki pocztowe, są dla nas bardzo korzystne, ponieważ ułatwiają nam korzystanie z poczty i chronią nas przed niebezpiecznymi wiadomościami. W ostatnich latach opracowywane są coraz sprawniejsze filtry, których skuteczność opiera się na ich „doświadczeniu” – uczą się podstawie dużych baz wiadomości e-mail, które zostały ręcznie oznaczone przez użytkowników jako spam.

Zupełnie nową technikę automatycznego wykrywania spamu przedstawili niedawno badacze z indyjskiego Sinhgad Institute of Technology Lonavala. Swoją propozycję opisali w artykule opublikowanym w czasopiśmie „International Journal of Intelligent Robotics and Applications”. Autorzy podkreślają, że ich model jest nie tylko skuteczniejszy i szybciej się uczy niż wcześniej opracowane techniki, ale także umożliwia użytkownikom sprawne przeglądanie wiadomości, które są klasyfikowane jako spam.

Podstawą tego modelu jest selekcja cech uwzględniająca wiele celów, do których mogą kierować, a także adaptatywna sieć kapsułowa (adaptive capsule network), czyli nowa, obiecująca technika uczenia maszynowego typu deep learning (głębokie uczenie).

– Nasz model wprowadza nowy hybrydowy algorytm heurystyczny i osiąga optymalny dobór cech, w oparciu o funkcją wielocelową – wyjaśnia Vikas Samarthrao Kadam, współautor badań. – Nasza praca potwierdza to, co było do przewidzenia – nowe, ulepszone modele wykrywania niechcianej korespondencji, oparte na algorytmach głębokiego uczenia. Automatyczne wykrywanie spamu jest niezbędne, ponieważ jest najprostszym rozwiązaniem.

W porównaniu do innych metod, ta przedstawiona przez indyjskich informatyków jest po prostu skuteczniejsza, a na dodatek proces uczenia się, czyli dochodzenia do skuteczności, jest znacznie szybszy. Autorzy podkreślają istotną rolę takiego narzędzia, które nie tylko ułatwia pracę wszystkim użytkownikom poczty elektronicznej, ale utrzymuje też wiarygodność tych sklepów internetowych, które działają uczciwie. Uważają, że ich filtr antyspamowy może być w przyszłości skutecznie zaimplementowany do nowych i do już działających serwisów, także tak dużych jak Gmail, Yahoo czy Outlook.

Nowa technika już teraz działa bardzo dobrze, ale – jak podkreślają jej autorzy – to, co wyraźnie odróżnia ją od innych tego typu produktów to to, jak szybko się uczy i rozwija. W przyszłości może więc być jeszcze skuteczniejsza. Obszarem, który wymaga istotnego dopracowania w ramach wykrywania na bieżąco niechcianych wiadomości jest „wskaźnik wykryć fałszywie pozytywnych”, czyli sytuacji, w których wiadomość, którą użytkownik chciałby otrzymać, trafia do spamu. Od czasu do czasu wszyscy szukamy tam przecież kodów aktywacyjnych i tym podobnych wiadomości, które nieprecyzyjny algorytm usunął wbrew naszej woli. To szczególnie indyjscy informatycy chcą wyeliminować lub przynajmniej zredukować.

Źródło badań: Kadam Vikas Samarthrao et al, A hybrid meta-heuristic-based multi-objective feature selection with adaptive capsule network for automated email spam detection, International Journal of Intelligent Robotics and Applications (2022). DOI: 10.1007/s41315-021-00217-9

Opracowano na podstawie artykułu A new model to automatically detect and filter spam emails opublikowanego na portalu TechXplore.