'

Технология извлечения знаний из использования Интернет

Понравилась презентация – покажи это...





Слайд 0

Технология извлечения знаний из использования Интернет


Слайд 1

Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.


Слайд 2

Основные области применения Финансы Страхование Медицина Биология Интернет


Слайд 3

OLAP/Data mining


Слайд 4

Структура web mining


Слайд 5

Структура web content mining


Слайд 6

Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально полезных знаний в деятельности пользователей Интернет.


Слайд 7

Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети


Слайд 8

Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining Кластеризация Поиск ассоциативных правил Поиск наиболее частых подпоследовательностей


Слайд 9

Сбор информации


Слайд 10

Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий


Слайд 11

Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение тех элементов где A к общему числу Уверенность – отношение элементов, где выполняется правило к элементам с А


Слайд 12

Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели


Слайд 13

Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы


Слайд 14

Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров Расстояние: по наиболее близкими или наиболее удалённым точкам, по центрам.


Слайд 15

Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с наибольшей вероятностью используются для пересчёта центров.


Слайд 16

Верификация кластеризации


Слайд 17

Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы


Слайд 18

Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется с учётом положения страниц Нечёткий C-Medoids метод


Слайд 19

Данные Sigla.ru 70000 посещений в день 1300 сессий в день 50 страниц Данные за три дня Сессии с длинной от 3 до 40 визитов


Слайд 20

Расстояние Евклида Каждая сессия это вектор vi = {x1,..xn} xj = 1 если страница j входит в сессию. xj = 0 иначе.


Слайд 21

Расстояние редактирования Примеры строк: ‘cat’, ‘cash’ CAT -> CAS -> CASH Общее расстояние 3.


Слайд 22

Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены Если совпадают dir 21 и dir 22 то стоимость снижается еще больше


Слайд 23

Индекс Беждека


Слайд 24

Энтропия разбиения


Слайд 25

Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров


Слайд 26

Предлагаемый метод


Слайд 27

Спасибо! Ваши вопросы?..


×

HTML:





Ссылка: