'

Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)

Понравилась презентация – покажи это...





Слайд 0

Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП) http://romip.narod.ru romip@yahoogroups.com


Слайд 1

Что такое РОМИП? РОМИП= (КОРПУС + ЗАДАЧИ + ОЦЕНКА) + ОРГАНИЗАЦИОННЫЕ ПРОЦЕДУРЫ + СЕМИНАР


Слайд 2

Международные аналоги CLEF (Cross-Language Evaluation Forum) – европейский форум по многоязычному поиску на европейских языках NTCIR – японский семинар с интернациональными участниками по многоязычному поиску SUMMAC – конференция по оценке качества автоматического аннотирования MUC (Message Understanding Conference) – серия конференций, направленных в основном на определении в текстах объектов TDT (Topic Detection and Tracking) – проект по обнаружению новых тем в потоке новостей и отслеживанию их развития DUC (Document Understanding Conference) – конференция по вопросам автоматического аннотирования


Слайд 3

Задачи РОМИП · создание общедоступных корпусов (тексты + задания + оценки) с возможностью повторного использования; · независимая оценка методов ИП; · объединение профессионалов; · формирование «правил игры».


Слайд 4

Принципы семинара Равноправие систем Анонимность источника результата Использование апробированных подходов


Слайд 5

Корпус narod_romip Источник – narod.ru Общий объем – 7 Гб + Документов – 600 000 + Число сайтов – 20 000+ Лицензия основана на пользовательском соглашении Яндекса


Слайд 6

Задачи (tracks) Поиск по произвольному запросу (ad hoc) 10000 запросов из лога Яндекса Выдача – 100 документов Тематическая классификация Классификация документов по 70 категориям категориям второго уровня каталога narod.ru Обучающая выборка – сайты каталога narod.ru (модерируемый самоввод), не менее 5 для каждой категории


Слайд 7

Оценка Метод «общего котла» (pooling) ~NT первых документов из выдачи Оценка общего числа документов для проверки ~ T0.7·NT T – количество участников Полнота рассчитывается по числу релевантных документов в пуле


Слайд 8

Объективность оценки ~50 неизвестных участникам запросов из 10 000 5 неизвестных участникам категорий из 70 расширенное описание запроса составляется экспертом оценщик не знает «происхождение» и ранг документа в выдаче троекратная оценка каждого документа


Слайд 9

Участники 2003 года Russian Context Алхимик Кодекс Золушка Ключи к Тексту Галактика-Zoom Яндекс.Software 3.0


×

HTML:





Ссылка: