'

Технология извлечения знаний из использования Интернет

Понравилась презентация – покажи это...





Слайд 1

Технология извлечения знаний из использования Интернет


Слайд 2

Определение Извлечение знаний – поиск нетривиальных потенциально полезных знаний в больших объёмах данных.


Слайд 3

Основные области применения Финансы Страхование Медицина Биология Интернет


Слайд 4

OLAP/Data mining


Слайд 5

Структура web mining


Слайд 6

Структура web content mining


Слайд 7

Web usage mining Извлечение знаний из использования Интернет – поиск нетривиальных потенциально полезных знаний в деятельности пользователей Интернет.


Слайд 8

Применения Web usage mining Персонификация контента Улучшение работы сети Модификация сайтов Исследования сети


Слайд 9

Этапы Web usage mining Сбор данных Обработка данных Применение методов Data mining Кластеризация Поиск ассоциативных правил Поиск наиболее частых подпоследовательностей


Слайд 10

Сбор информации


Слайд 11

Обработка данных Очистка данных Заполнение пути Выделение пользовательских сессий


Слайд 12

Ассоциативные правила Правила вида: A=>b. Где А - ДНФ Поддержка – отношение тех элементов где A к общему числу Уверенность – отношение элементов, где выполняется правило к элементам с А


Слайд 13

Цель кластеризации Уменьшение размерности (выбор представителей) Генерация гипотез Проверка гипотез Прогнозные модели


Слайд 14

Методы кластеризации Иерархические Алгоритмы оптимизации Основанные на плотности Нечёткие методы


Слайд 15

Иерархические методы N кластеров На каждом шаге объединение двух самых «близких» кластеров Расстояние: по наиболее близкими или наиболее удалённым точкам, по центрам.


Слайд 16

Нечёткий c-medoids метод Jm(V;X) = Минимизируется это значение Только 30 элементов с наибольшей вероятностью используются для пересчёта центров.


Слайд 17

Верификация кластеризации


Слайд 18

Методы верификации Сопоставление эталонного разбиения и кластеров Статистические Связанные с нечётким разбиением Комбинированные методы


Слайд 19

Предлагаемый метод Сессии представлены как численные векторы Используюется расстояние редактирования Расстояние модифицируется с учётом положения страниц Нечёткий C-Medoids метод


Слайд 20

Данные Sigla.ru 70000 посещений в день 1300 сессий в день 50 страниц Данные за три дня Сессии с длинной от 3 до 40 визитов


Слайд 21

Расстояние Евклида Каждая сессия это вектор vi = {x1,..xn} xj = 1 если страница j входит в сессию. xj = 0 иначе.


Слайд 22

Расстояние редактирования Примеры строк: ‘cat’, ‘cash’ CAT -> CAS -> CASH Общее расстояние 3.


Слайд 23

Модификация расстояния dir11/dir12/pagename1 dir21/dir22/pagename2 Если совпадают dir 11 и dir 21 то уменьшается стоимость замены Если совпадают dir 21 и dir 22 то стоимость снижается еще больше


Слайд 24

Индекс Беждека


Слайд 25

Энтропия разбиения


Слайд 26

Предлагаемая верификация Подсчёт уникальных ассоциативных правил Индекс = количество уникальных правил/количество кластеров


Слайд 27

Предлагаемый метод


Слайд 28

Спасибо! Ваши вопросы?..


×

HTML:





Ссылка: