'

Особенности регионального ранжирования Яндекса. Украинская формула

Понравилась презентация – покажи это...





Слайд 0

Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики


Слайд 1

ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ Обучающие данные Набор запросов q(i) Набор документов dj(i) для каждого запроса q(i) Rel(q(i), dj(i)) - ручная оценка соответствия документа запросу Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)


Слайд 2

ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f1(q,d) , …, fN(q,d)) Конкурс «Интернет-математика – 2009»: N=245 «Яндекс на РОМИП’2009»: N=163 (коллекция BY.WEB); N=69 (коллекция KM.RU, без ссылочных факторов)


Слайд 3

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина документа в словах; язык запроса. Текстовые наличие точного вхождения запроса в тексте документа; наличие точного вхождения запроса в заголовке документа; tf*idf; различные модификации формулы Okapi_BM25.


Слайд 4

ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные PageRank; логарифм количества ссылок на документ; процент ссылок на документ, содержащих точное вхождение запроса. Географические регион сайта; язык документа.


Слайд 5

ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f1(q,d), …, fN(q,d)) Построение функции релевантности с помощью генетических алгоритмов: 1. Выбор метрики («Яндекс на РОМИП’2009»: pfound – максимизация вероятности найти релевантный результат) 2. Подбор вида функции («Яндекс на РОМИП’2009»: полином ?aIf1i1 f2i2… fNiN ) 3. Подбор коэффициентов


Слайд 6

СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА Обучающие данные (q(i), dj(i)), i=1,…,n; j=1,…m(n). Определение значений факторов Асессоры Обучающий алгоритм Ранжирующий алгоритм F(q(i), dj(i)) Rel(q(i), dj(i)) Fr(F(q,d)) Тестовые данные (q, dj), j=1,…,m Fr(F(q, dj)) Определение значений факторов F(q, dj)


Слайд 7

РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: 19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и др. Общероссийская Украина Белоруссия Казахстан Отличаться могут не только коэффициенты, но и сам вид функций!


Слайд 8

ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ Постановка эксперимента Выбор исследуемого фактора Генерация тестовых коллекций Варьирование исследуемого фактора Фиксация остальных факторов Индексация тестовых коллекций Анализ результатов Принятие решения о характере влияния исследуемого фактора на функцию релевантности


Слайд 9

УКРАИНСКАЯ ФОРМУЛА Фактор: Количество употреблений термина запроса (tf) Характер зависимости: Прямая Фактор: Длина документа в словах Характер зависимости: Обратная Фактор: Количество употреблений самого частотного термина Характер зависимости: Обратная


Слайд 10

Спасибо за внимание! Пожалуйста, задавайте вопросы Для продолжения темы посетите Корпорация РБС 115191, Россия, Москва, ул. Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза» Телефон: (495) 772-97-91 (многоканальный) ICQ-консультант: 377-169-437 http://rbsgroup.ru | http://bdbd.ru | http://mediaguru.ru | http://webvisor.ru


×

HTML:





Ссылка: