'

КАЧЕСТВО ПОИСКА по «гамбургскому счету»

Понравилась презентация – покажи это...





Слайд 0

КАЧЕСТВО ПОИСКА по «гамбургскому счету» Андрей Иванов, andre@ashmanov.com Поисковые технологии - 2010 26-28 февраля


Слайд 1

Поисковые технологии - 2010 Метрики для оценки качества поиска Гамбургский счет Красивая легенда, придуманная советским литературоведом Виктором Шкловским. «Гамбургский счет — чрезвычайно важное понятие. Все борцы, когда борются, жулят и ложатся на лопатки по приказанию антрепренера. Раз в году в гамбургском трактире собираются борцы. Они борются при закрытых дверях и завешенных окнах. Долго, некрасиво и тяжело. Здесь устанавливаются истинные классы борцов, — чтобы не исхалтуриться...» Из словаря: «ГС – эквивалент беспристрастной оценки чего-либо без скидок и уступок, с предельной требовательностью…» Из словаря: «ГС - выявление реального, а не официального места индивида в статусной иерархии (политической, профессиональной, научной, спортивной и др.).»


Слайд 2

Поисковые технологии - 2010 Метрики для оценки качества поиска Как сегодня оценивается качество поиска Методики оценки качества поиска основаны: на использовании статистических данных о поведении пользователей в поиске. Эти данные закрыты; на оценках результатов поиска с помощью асессоров. Методики работы асессоров, полученные с их помощью показатели, постановка оценочных задач – все это тоже закрытые данные. Каждый поисковик изобрел собственную систему оценки. Конечно же, - правильную. Но эти правильные системы невозможно сравнить друг с другом. Общепринятой («гамбургской») методики – нет. Потребность в ней – есть. Как для самих поисковиков, так и для всех, кто интересуется рынком поиска.


Слайд 3

Поисковые технологии - 2010 Метрики для оценки качества поиска Три принципа системы независимой оценки Использование открытых, легко проверяемых данных. Использование открытых методик. Наличие процедуры выбора решения по спорным вопросам Пример спорного вопроса. Запрос «дизайн», 1 позиция: Яндекс – Википедия Google - Журнал ChaosLend - все про интерьер, дизайн интерьера и ремонт квартир и других помещений… Рамблер - Самизнаетекто Gogo – SALON.ru - проект Издательского дома "Салон-Пресс", в основе которого лежит многолетний опыт и профессионализм журнала SALON-interior. Апорт - GARDENER.ru - ландшафтный дизайн и архитектура сада Yahoo - коллекция работ alex.kuh ЧЬЯ ССЫЛКА БОЛЬШЕ НРАВИТСЯ ПОЛЬЗОВАТЕЛЯМ?..


Слайд 4

Поисковые технологии - 2010 Метрики для оценки качества поиска Анализаторы поисковых машин URL – www.analyzethis.ru Старт – 2006-2007 гг. Сначала как игрушка для рассылки, но идея оказалась интересной и захотелось продолжать. Идея – одинаковые задания даются разным поисковым машинам. Результаты сравниваются. Первый – анализатор качества навигационного поиска. Это самая «бесспорная» задача сравнения. Дальше – больше…


Слайд 5

Поисковые технологии - 2010 Метрики для оценки качества поиска 11 «бесспорных» задач навигационный поиск – проверяется, найден или нет известный сайт в ответ на навигационный запрос; тематический (экспертный) поиск – проверяется совпадение ссылок алгоритмической выдачи в ответ на точные запросы со ссылками ручной экспертной подборки (Городские библиотеки Уфы : 5 сайтов - и т.п.); подсказки – проверяется правильность предлагаемых поисковиком подсказок для запросов с ошибками-опечатками; опечатки – в случае очевидных опечаток не имеет смысла предлагать подсказку, проще автоматически исправить ее и предложить пользователю выдачу в ответ на измененный правильный запрос; проверяется совпадение выдачи по запросу с явной опечаткой с выдачей в ответ на правильный запрос; цитатный поиск – проверяется, найден или нет текст первоисточника известной цитаты; поиск оригиналов – проверяется, найден или нет оригинальный документ, откуда взята цитата для поискового запроса…


Слайд 6

Поисковые технологии - 2010 Метрики для оценки качества поиска 11 «бесспорных» задач синонимы – проверяется совпадение выдачи по синонимичным поисковым запросам; поисковый спам – проверяется наличие ссылок на спам-сайты в Тор10 выдачи по запросу; SEO-прессинг – проверяется наличие ссылок на однотипные коммерческие предложения в выдаче по нечетким запросам; порнография – проверяется наличие ссылок на порносайты в выдаче по запросам, не относящимся к порнотематике; полнота индекса – проверяется наличие результатов поиска в ответ на очень редкие поисковые запросы.


Слайд 7

Поисковые технологии - 2010 Метрики для оценки качества поиска Если взглянуть бегло…


Слайд 8

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (опечатки - Гугл)


Слайд 9

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (навиг. - Yahoo)


Слайд 10

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (тем. – Рамблер)


Слайд 11

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (цитат. - Яндекс)


Слайд 12

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (ор. – Янд. Gogo)


Слайд 13

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (спам – Яндекс)


Слайд 14

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (SEO – Рамблер)


Слайд 15

Поисковые технологии - 2010 Метрики для оценки качества поиска Если наблюдать долго… (порн. – Янд., Рам.)


Слайд 16

Поисковые технологии - 2010 Метрики для оценки качества поиска Как это понимать?.. «Общее» качество поиска разложимо на ряд частных задач, за результатами выполнения которых можно наблюдать раздельно. Примеры показывают два подхода, используемые поисковиками в шлифовке качества поиска: а) «пресс», б) «штурм», т.е. и SE тоже применяют принцип разложения на частные задачи. Вывод: надо увеличивать количество задач сравнения. И по совокупности их результатов мы (дай Бог!) сможем делать «общую» оценку качества поиска для каждой поисковой машины. Так Яндекс борется со спамом А вот так Яндекс борется с порно


Слайд 17

Поисковые технологии - 2010 Метрики для оценки качества поиска «Спорные» задачи: омонимия и полисемия


Слайд 18

Поисковые технологии - 2010 Метрики для оценки качества поиска «Спорные» задачи: региональный поиск Яндекс и Google – разные подходы к формированию региональной выдачи


Слайд 19

Поисковые технологии - 2010 Метрики для оценки качества поиска «Спорные» задачи: региональный поиск Сколько региональных результатов должно быть в выдаче по запросу доставка суши ? А по запросу суши ?..


Слайд 20

Поисковые технологии - 2010 Метрики для оценки качества поиска Развитие проекта Классификация Бродера устарела. Частных типовых задач (метрик), по которым можно проводить сравнение качества поиска разных поисковых машин, не три (навигационный, информационный, транзакционный поиск). Их – десятки, если не сотни. Большинство метрик – неоднозначные. Т.е. логичным вариантом развития проекта является создание на его базе сообщества для выяснения общественного мнения. Возможно, это и есть механизм искомой «процедуры выбора решения». Чем больше метрик, тем сложнее задача сведения их результатов в единый показатель. Метрики неоднородны; ясно, что вклады каждой в сводную цифру различны. Как их учесть?.. И надо ли?..


Слайд 21

Поисковые технологии - 2010 Метрики для оценки качества поиска Попытка учета Отсутствие гипотезы определения важности коэффициентов. Чем больше метрик, тем сложнее должна быть гипотеза. Разброс по качеству - от 5,4% до 91,5%. (92% - это почти 100. Яндекс уже идеален?.. :0) )


Слайд 22

Поисковые технологии - 2010 Метрики для оценки качества поиска Попытка неучета «Тупое» среднее по всем метрикам. Чем больше метрик, тем меньше значение каждой. Разброс показателей – от 39,1% до 65,5%.


Слайд 23

Поисковые технологии - 2010 Метрики для оценки качества поиска Чего бы хотелось от поисковиков Возможность делать автозапросы. Fair play. Это анализаторы поисковых машин, а не сервисов по настройке на используемые маркеры. Окошко на «кухню поиска». Большей открытости – идей новых метрик, интересных данных статистики о поведении пользователей, заказов на опросы.


Слайд 24

Поисковые технологии - 2010 Андрей Иванов andre@ashmanov.com Информация о компании, услугах и технологиях www.ashmanov.com Информация о конференциях и семинарах, рассылки www.optimization.ru Контакты optimization@ashmanov.com +7(495)975-0978 “Спасибо! Вопросы?”


×

HTML:





Ссылка: