Гібридний ансамбль супер учнів для виявлення фішингу на мобільних пристроях

Проблема виявлення фішинг-URL-адрес викликала широке дослідження різних методологій, від традиційних евристичних підходів до передових методик ML та DL. Це опитування літератури дає огляд ключових досліджень та розробок у цій галузі, підкреслюючи еволюцію методів та сучасний сучасний.

Традиційні евристичні підходи до фішингового виявлення

Багаторазові дослідження запропонували методи ML для виявлення фішингових URL -адрес. Ці моделі^4,5 Зазвичай витягуйте функції з URL -адрес, цільових сторінок та розміщення деталей, які потім використовуються для підготовки класифікаторів, щоб відрізнити фішинг -URL -адреси від законних. Шаху та ін.⁶ Класифікуйте ці функції на чотири типи: функції чорного списку, лексичні функції, функції на основі хоста та функції на основі контенту. Особливості чорного списку Визначте URL -адреси або незначні варіанти, перелічені на чорних списках^7,8. Url лексичні особливості, застосовані в таких дослідженнях^9,10,11,12вивчіть слова, розділені спеціальними символами, а також властивості на основі хостів, таких як домен та атрибути IP. Особливості на основі контенту, включаючи елементи HTML та JavaScript^{13,14,15,16,17}а також текстовий та візуальний зміст^18,19,20,21також широко використовувались. Інші дослідження включають інформацію про гіперпосилання на веб -сторінках²²³³Наприклад, обчислення співвідношення частого прив’язки посилань на загальні посилання на сторінці. Крім того, Tan et al.²⁴ Досліджені методи на основі графіків, використання гіперпосилання на веб-сторінку та структури посилань. Інші роботи використовують додаткові функції з сторонніх джерел, таких як дані доменного віку зі списку топ-доменів Alexa^{5,15,17,25,26}.

Фішинг-виявлення на основі URL

Крім особливостей URL-адреси, багато згаданих раніше функцій важко отримати в режимі реального часу і їх можна легко обійти методами ухилення²⁷. Більше того, вилучення функцій вмісту вимагає фонового доступу до фішингової веб -сторінки, яка створює ризики, такі як ненавмисні завантаження зловмисного програмного забезпечення та потенційні контрзаходи, навіть у автоматизованих системах. Крім того, збирання інформації про хостинг ускладнюється для фішинг -сайтів з короткими термінами життя. Як рішення, підходи на основі URL-адреси були запропоновані як додатковий підхід. Ці методи уникають залежності від сторонніх функцій, зменшують ризик завантаження ненавмисного зловмисного програмного забезпечення та не сприйнятливі до тактики ухилення від веб-сторінок, таких як маскування. Вони також ефективні для виявлення фішинг -сайтів, розміщених на компрометованих законних веб -сайтах. Ця стаття в першу чергу досліджує техніку виявлення фішингу, яка була досліджена в попередніх науково -дослідних робітах^{28,29,30,31,32} і широко класифікується на два типи.

Фішинг-виявлення на основі ручної роботи

Ці підходи витягують функції вручну з URL -адрес, включаючи довжину URL -адреси, кількість слів, виникнення спеціальних символів та кількість субдоменів. Потім алгоритми ML, такі як випадковий ліс (RF) та підтримуючі векторні машини (SVM), навчаються за допомогою цих вилучених особливостей^28,33,34. Значні дослідження в цій галузі включають в себе²⁸ і робота Sahingoz et al.³⁴що досягло точності 98,25% та 97,98% відповідно. Однак обидва дослідження оцінювали свої моделі виключно на наборах даних, які вони зібрали та ввели у відповідні документи.

Вбудовування фішинг-виявлення на основі представлень

Нещодавні досягнення в DL призвели до розробки різних моделей на основі DL для виявлення фішинг-URL-адрес. Юань та ін.³⁵ Представив методику, яка перетворює URL -адреси в вбудовані символи за допомогою мови Skipgram³⁶які потім використовуються для підготовки моделей ML, таких як XGBoost (XGB), логістична регресія (LR) та RF. В іншому підході Рао та ін.³⁷ Використовувані вкладиші слова URL -адреси як вхід для архітектури LSTM, з якої вони витягли шар функції для створення ансамблю SVM.

Додаткові дослідження були зосереджені на створенні повних трубопроводів DL. І URLNET, і дослідження Aljofey et al.^29,38 Використовуйте представлення URL -адреси для підготовки класифікаторів CNN. Urlnet²⁹ Починається з ініціалізації випадковим чином та навчальних вбудовувань для кожного слова в URL -адресі, розділеному спеціальними символами. Потім він генерує вбудовування для символів у кожному слові і поєднує їх із вбудовуванням рівня слова через додавання елементів. Ці комбіновані вбудовування та вбудовування на рівні символів обробляються за допомогою моделі CNN для остаточної класифікації. Аналогічно, Aljofey et al.³⁸ Навчала модель CNN для виявлення фішингу, використовуючи лише вбудовування на рівні символів. URLNET досягла справжньої позитивної швидкості 95,58% та помилкової позитивної швидкості – 0,1%, тоді як Aljofey et al. досягнув F1-бал 95,13%.

Maneriker та ін.³⁰ Представлений Urltran, модель, яка використовує найсучасніші архітектури трансформаторів для ідентифікації фішинг-URL-адрес. На відміну від попередніх методик, Urltran тонко налаштовує попередньо підготовлену модель BERT³⁹ Використання токенізованих URL-адрес. Цей метод дозволяє моделі вивчати контекстні взаємозв'язки між лексемами URL -адрес. Токенізований вхід обробляється за допомогою моделі BERT, і отримані вбудовані вбудовані вбудовані для підготовки нейронної мережі, що подає вперед, генерує фішинг-прогнози. URLTRAN продемонстрував значне поліпшення порівняно з URLNET, досягнувши 21,9% відносного збільшення справжньої позитивної швидкості, зберігаючи низький помилковий позитивний показник 0,01%.

Підходи на основі ML та DL

У цих підходах використовуються різні алгоритми ML, включаючи векторну машину (SVM), випадковий ліс (RF), логістична регресія (LR) та Bayesian Network (BN)^5,34,40,41 Для аналізу прихованих моделей в межах класифікації фішинг -веб -сайтів. Ці функції витягуються за допомогою евристичних методів, використовуючи URL, вихідний код, або сторонні джерела.

Кілька досліджень^29,42,43,44 використовували різні алгоритми DL для класифікації URL -адрес. Ці методи включають глибоку нейронну мережу (DNN), рецидивуючу нейронну мережу (RNN), довгострокову короткострокову пам'ять (LSTM), мережу глибокої віри (DBN) та нейронну мережу згортання (CNN).

Мобільні підходи

Запропонований модельний підхід узгоджується з мобільними методами антифізації, тому цей розділ висвітлює деякі з останніх та найпопулярніших методів цієї категорії. Хан та ін.⁴⁵ Представив метод виявлення фішинг-веб-сайтів за допомогою інформації про попередньо зареєстроване інтерфейс входу (LUI) на мобільних пристроях. Їх підхід включає плагін для браузера, який порівнює інформацію LUI підозрілих веб-сайтів із попередніми даними LUI для ідентифікації фішинг-сайтів.

Mobifish, автоматизована антифізистська система для мобільних пристроїв, була запропонована в Ref.⁴⁶. Ця система визначає фішинг -веб -сайти та шкідливі програми в мобільних пристроях, перевіряючи фактичну ідентичність проти фактичної ідентичності за допомогою оптичного розпізнавання символів (OCR). OCR використовується для вилучення тексту з веб -сайту, який використовується для визначення заявленої ідентичності, тоді як фактична ідентичність походить від URL -адреси. Якщо виявлено невідповідність між двома ідентичністю, система попереджає користувача.

У Ref був запропонований підхід на основі URL-адреси для виявлення фішинг-веб-сайтів на мобільних пристроях.⁴⁷. Цей метод аналізує частоту функцій, пов'язаних з фішингом, для визначення стану веб-сайту. Ці функції на основі URL вводяться в модель SVM для виявлення фішинг-атак.

У реф.⁴⁸ Це відстежує клавіші та сповіщає користувачів, коли конфіденційна інформація вводиться у шкідливий мобільний додаток. Цей підхід покладається на білогориста надійних програм та пов'язаних з ними користувачів, щоб перевірити легітимність програми.

Amrutkar та ін.⁴⁹ Розроблено розширення Firefox під назвою Kayo для виявлення фішинг -веб -сайтів на мобільних пристроях. Автори витягнули різні статичні особливості із вмісту HTML, JavaScript, URL-адрес та мобільних функцій. Потім LR застосовується для класифікації веб -сайтів як фішингу, так і законного.

Chogh et al.⁵⁰ запропонував метод виявлення фішинг -веб -сайтів на мобільних пристроях Android. Цей підхід передбачає вилучення URL-адреси з браузера, потім статичний аналіз URL-адреси, вилучення HTML та пошук лексичних та сторонніх особливостей. Ці функції вводяться в SVM для класифікації URL -адрес.

Попередження та ін.⁵¹ ввів метод виявлення мобільних фішинг -сторінок за допомогою оманливого моделювання входу. Цей підхід був реалізований як додаток для Android під назвою unphishme, який подає фальшиві облікові дані формі входу підозрілого веб -сайту. Легітимність веб -сайту визначається шляхом перевірки процесу аутентифікації фальшивими обліковими записами. Аутентифікація обчислюється шляхом порівняння хеш -кодів підозрілої URL -адреси до та після процесу входу.

Рао та ін.³⁷ Розробив мобільний додаток під назвою Phishdump для класифікації веб -сайтів на мобільних пристроях як законних або фішинг. Phishdump використовує мультимодельний підхід, поєднуючи моделі LSTM та класифікатор SVM. Орієнтуючись на вилучення атрибутів з URL -адрес, Phishdump пропонує декілька переваг перед іншими методами, включаючи більш швидкі обчислення та незалежність мови.

Bert та Electra – це видатні моделі трансформаторів у галузі обробки природних мов (NLP). Хейнс та ін.⁵² Використовували ці моделі для вивчення представлень функцій безпосередньо з тексту URL -адреси. І Bert, і Electra демонструють порівнянні показники, даючи перспективні результати виявити шкідливі URL -адреси на мобільних пристроях.

Jain et al.⁵³ Представлений APUML, ефективна мобільна система для виявлення шкідливих веб-сайтів. Система працює на декількох етапах, включаючи подачу даних, аналіз DNS та ML. Автори показують, що APUML досягає високої точності виявлення, зберігаючи низький час відгуку.

Dhanavanthi та ін.⁵⁴ представляє підхід до виявлення веб -фішингу за допомогою методик DL, зокрема мережі LSTM та рецидивуючих блоків (GRU). У цьому документі підкреслюється зростаюча складність фішинг-атак та необхідність ефективних методів виявлення, які можуть ефективно працювати на пристроях, що обмежуються ресурсами, таких як мобільні телефони та Raspberry Pi.

Gupta et al.⁵⁵ запропоновано рішення на основі DL для виявлення мобільних фішинг -атак за допомогою моделі Googlenet. Модель аналізує скріншоти веб -сторінки та сповіщає користувачів, якщо виявлена спроба фішингу. Модель Googlenet була обрана для ефективних можливостей розпізнавання зображень багатокласів. Запропонована модель досягла вражаючої точності 97,04%, перевершивши традиційні моделі ML, такі як LR, DR та SVM.

Міст і Ал.⁵⁶ Запропонована система виявлення фішингу під назвою Phishshield, яка використовує моделі ML в рамках колби. Система використовує наївний Байєс Бернуллі та багаточленні алгоритми наївних Байєса для класифікації URL -адрес як фішинг або законних. Основні функції Phishshield Extracts, такі як деталі IP-адреси, характеристики URL-адреси та атрибути, пов'язані з доменом. Користувацький інтерфейс Phishshield, побудований за допомогою колби, CSS та Bootstrap, забезпечує зручний для користувачів досвід для швидких оцінок URL-адрес, пропонуючи цінне рішення для боротьби з фішинг-атаками.

Попередні дослідження виявлення фішинг-URL-адрес використовували або функції ручної роботи, або функції DL, такі як вбудовані на рівні тексту та представлення на основі трансформаторів. У таблиці 1 наведено порівняльний підсумок цих методів виявлення фішингу на основі мобільних пристроїв, підкреслюючи їх методології та ключові внески. У цій роботі ми пропонуємо нову гібридну модель, яка інтегрує векторні представлення функцій ручної роботи, так і функцій DL. Ці комбіновані вектори функцій потім обробляються моделлю ML для класифікації. Крім того, ми пропонуємо ансамбль супер учнів, який агрегує прогнози з різних алгоритмів ML для підвищення ефективності класифікації. Запропонована наша модель має на меті забезпечити більш ефективне та адаптивне виявлення URL -адреси, що особливо підходить для розгортання мобільних пристроїв.

Таблиця 1 Підсумок методів виявлення фішингу на основі мобільних пристроїв.

ShareShare X Pinterest

29Views