'

Извлечение объектов из поисковых запросов

Понравилась презентация – покажи это...





Слайд 0

Извлечение объектов из поисковых запросов Михаил Обухов, Михаил Долинин


Слайд 1

Что такое объекты? Названия организаций Имена людей Названия должностей Адреса Названия программ и т.д. ООО «Мэйл.Ру» 15-18 февраля 2012 г. ГОСТ 2.001-93 ISBN: 978-1405187848 Яхрома


Слайд 2

Справочники Парсер запросов детский нафтизин инструкция


Слайд 3

Для чего нужны объекты? Классификация поисковых запросов Вопросно-ответные задачи Переформулировки Индексация Обогащение поисковых запросов …


Слайд 4

Задача Индексация Парсинг запросов *NEX – Named Entity eXtraction


Слайд 5

Какие решения существуют? Машинное обучение Классификаторы (Naive Bayes, ME Models, …) Последовательные модели (HMM, CRF, …) Системы основанные на правилах Ручное составление Автоматическое Использование онтологий Wikipedia, DbPedia Imdb


Слайд 6

Особенности поисковых запросов Малая длина (в среднем 3 слова) Слабая грамматическая структура Не являются текстом на ЕЯ Отражают потребности пользователей


Слайд 7

Основные предположения Объекты одного типа встречаются в одинаковых контекстах Объект является самостоятельным поисковым запросом


Слайд 8

Общая структура метода


Слайд 9

Фаза извлечения шаблонов


Слайд 10

Фаза извлечения шаблонов Исходные данные: Лог поисковых запросов Начальный список шаблонов (1-2 шаблона) Результат: список шаблонов с весами


Слайд 11

Шаг 1:извлечение начальных объектов Для каждого запроса из лога Пробуем извлечь объект Если получилось, сохраняем Очистка извлеченных объектов Не встречающихся как самостоятельный запрос смотреть <название> смотреть сериал <название> \d+ сезон \d+ серия онлайн бесплатно в хорошем качестве Начальные шаблоны должны быть точными!


Слайд 12

Шаг 2: извлечение кандидатов Для каждого начального объекта Из каждого запроса, где он встречается Создаем шаблон смотреть сериал счастливы вместе онлайн серия 2 смотреть сериал <название> онлайн серия \d+


Слайд 13

Шаг 3: Взвешивание кандидатов Рассчитываем вес для каждого кандидата Удаляем кандидатов имеющих низкий вес *Доверенный – объект извлеченный N и более различными шаблонами


Слайд 14

сериал (.+) \d+ сезон смотреть онлайн бесплатно:0.95 сериал (.+) \d+ сезон \d+ серия смотреть онлайн:0.93 (.+) \d+ сезон смотреть онлайн:0.90 … (.+) смотреть:0.07 скачать (.+):0.03 …


Слайд 15

Фаза извлечения объектов


Слайд 16

Фаза извлечения объектов Исходные данные: Лог поисковых запросов Список шаблонов (полученный ранее) Результат: список объектов с весами


Слайд 17

Шаг 1: извлечение кандидатов Для каждого шаблона из списка Сохраняем все объекты, которые он может извлечь Очистка извлеченных объектов Не встречающихся как самостоятельный запрос Не частотные объекты Содержащие слова из списка шаблонов


Слайд 18

Шаг 2: Взвешивание объектов Рассчитываем вес для каждого объекта в списке Удаляем объекты имеющие низкий вес


Слайд 19


Слайд 20

Метод оценки результата Точность первых N объектов (10, 50, 100 …) Точность случайной выборки (100)


Слайд 21

Результаты:


Слайд 22

Достоинства и недостатки Достоинства Простая реализация Масштабируемость Хорошая точность Недостатки Требует ручного вмешательства (начальный список шаблонов) Требует задания порогов


Слайд 23

СПАСИБО! ВОПРОСЫ? Михаил Обухов obuhov@corp.mail.ru Михаил Долинин dolinin@corp.mail.ru


×

HTML:





Ссылка: