'

МЕТОДЫ ОБНАРУЖЕНИЯ ПИСЕМ-ТРАНСФОРМЕРОВ

Понравилась презентация – покажи это...





Слайд 0

МЕТОДЫ ОБНАРУЖЕНИЯ ПИСЕМ-ТРАНСФОРМЕРОВ Ермакова Лиана


Слайд 1

Понятие спама Спам - это анонимные незапрошенные массовые рассылки электронной почты (Лаборатория Касперского) Но: Спам в социальных сетях Спам в IM


Слайд 2

Методы борьбы со спамом Black list White list Grey list Анализ заголовков Байесовская фильтрация по словам Генетические алгоритмы и ручное выставление весов Обнаружение повторов и признак массовости Интегрирующие системы


Слайд 3

Сигнатурные подходы Синтаксические Оперируют цепочками слов «Шинглы»: вычисление контрольных сумм для всех подцепочек текста построение случайной выборки из полученного набора Лексические Оперируют словарем Метод опорных векторов


Слайд 4

Сообщения-трансформеры Сообщения, имеющие сходное содержание, но различные по форме Каждое отдельное письмо выглядит как обычный связный текст, и, только имея много копий сообщения, можно установить факт перефразировки


Слайд 5

Классификация спама По структуре: спам, замаскированный под личную корреспонденцию спам, замаскированный под легальные массовые рассылки рекламный спам По тематике: Нигерийские письма Цепочечные письма «страшилки» письма счастья Быстрый заработок Реклама Программное обеспечение Медикаменты Образование Финансы Страхование…


Слайд 6

Методы трансформирования сообщения Транслитерация Намеренные опечатки Синонимия Замена букв цифрами и наоборот (4-ч, 0-о, 3-з, 1-l) Замена кириллических символов схожими символами латиницы (k-к, а-a, Н –H и т.д.) Введение дополнительных символов («Вы хотите ве рнуть вашего любимо го челове ка навсегда и полность ю избавиться от измен?») Чередование различных символов (например, в номерах телефонов) Варьирование электронного адреса Варьирование ссылок…


Слайд 7

Алгоритм выявления писем-трансформеров На основе квантитативных характеристик с применением машины опорных векторов новое сообщение относится к той или иной категории В качестве уточняющего признака используется триграммное сходство с учетом расстояния Дамерау-Левенштейна и выявленных правил замены символов


Слайд 8

Квантитативные характеристики доля полнозначных и служебных слов доля предложений, слов и абзацев определенной длины доля вхождения каждой части речи (краткие и полные формы прилагательных и причастий мы считали различными частями речи) количество знаков препинания совстречаемость частей речи и т.д. Общее число признаков – 135


Слайд 9

Доли последовательностей частей речи


Слайд 10

Email базы Мера сходства, вычисленная при помощи триграмм sWEVIE email BAZY pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...> aDRESA DLQ email RASSYLOK pRODAVA BAZ email ADRESOW (ADRESA DLQ email RASSYLOK) <...>


Слайд 11

ЕГРЮЛ Мера сходства, вычисленная при помощи триграмм


Слайд 12

Параметры машины опорных векторов для определения писем-трансформеров на русском языке Sample size = 707 (Train), 236 (Test), 943 (Overall) Support Vector machine results: SVM type: Classification type 1 (capacity=10,000) Kernel type: Radial Basis Function (gamma=0,007) Number of support vectors = 118 (0 bounded) Support vectors per class: 94 (0), 16 (1), 8 (2) Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall)


Слайд 13

Знакомства Мера сходства, вычисленная при помощи триграмм


Слайд 14

Медикаменты Мера сходства, вычисленная при помощи триграмм


Слайд 15

Казино


Слайд 16

Другие примеры


Слайд 17

Выводы Контентная фильтрация применима для различных систем обмена сообщениями (электронная почта, IM, социальные сети), т.к. онa не опирается на служебную информацию Особо рассматривается проблема обнаружения намеренно искаженных фрагментов Предлагается метод детектирования массовых сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения производительности за счет использования методов Монте-Карло Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом потоке является улучшением сигнатурного метода


Слайд 18

Спасибо за внимание!


×

HTML:





Ссылка: