'

Алгоритм построения оценок весов интентов для многозначных запросов

Понравилась презентация – покажи это...





Слайд 0

Алгоритм построения оценок весов интентов для многозначных запросов Артём Григорьев 445-ая группа Кафедра Системного программирования Математико-механический факультет СПбГУ Научный руководитель: к. ф.-м. н. Грауэр Л.В. ООО «Яндекс»


Слайд 1

Предметная область Многозначный запрос – запрос, по которому возможны несколько пользовательских интентов (намерений пользователя). Примеры: ягуар, наполеон, титаник… IA-метрики (intent-aware) – метрики качества поиска, учитывающие различные интенты по многозначным запросам. 2


Слайд 2

3 Сейчас: Расчёт весов для IA-метрик производится вручную. Асессоры получают небольшой набор случайных сессий, должны определить по сессии интент. Доля сессий с данным интентом = вес. Минусы: ограниченные возможности асессоров, => малое количество сессий по запросу, редкие обновления. Задача: Придумать и реализовать алгоритм, вычисляющий по заданному на вход запросу набор пользовательских интентов и оценки их весов. Постановка задачи


Слайд 3

Алгоритм Формирование множества связанных запросов Кластеризация Построение графа запросов и документов Случайное блуждание по графу Кластеризация по векторам предельных вероятностей документов Распределение сессий по кластерам и расчёт весов 4


Слайд 4

Построение графа Вершины – запросы (Q) и документы (D) Рёбра: Q1 -> Q2 (вес = вероятность переформулировки) Q -> D (вес = вероятность клика) Петли D -> D (вес = 1) Полученный граф – марковская цепь Документы – конечные состояния 5


Слайд 5

Результаты Разработан алгоритм 65% наборов интентов найдено полностью 94% без одного интента Ошибки в точности в среднем <= 0.17 Создан веб-инструмент для запуска и анализа результатов Утилита для расчёта данных по переформулировкам на кластере MapReduce 6


Слайд 6

Дальнейшая работа Создание полуавтоматической системы проверки точности и полноты «Правильная» фильтрация «мусорных» данных Использование лингвистических данных при распределении сессий по кластерам Определение интентов из коротких, малоинформативных сессий Другие алгоритмы кластеризации и функции сходства 7


×

HTML:





Ссылка: