'

ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS»

Понравилась презентация – покажи это...





Слайд 0

ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция Диалог-2008


Слайд 1

Состояние дел в области поисковых алгоритмов Статистические алгоритмы поиска (с учетом морфологии). Лингвистические алгоритмы поиска (без учета статистики). Цель разработчиков Exactus: объединение статистических и лингвистических методов поиска.


Слайд 2

Особенности алгоритма поиска Exactus (1) Учет статистических характеристик текста: TF*IDF веса термов (с некоторой модификацией). Значимость фрагментов текстов (заголовки, разметка, удаленность от начала документа и т.д.).


Слайд 3

Особенности алгоритма поиска Exactus (2) Учет лингвистических характеристик текста: Значения синтаксем (Золотова Г.А.). Семантические связи (Осипов Г.С.).


Слайд 4

Особенности алгоритма поиска Exactus (3)


Слайд 5

Что у других?


Слайд 6

Что у других? (2)


Слайд 7

Как Exactus нашел ответ


Слайд 8

Как Exactus нашел ответ(2) На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF весов. Производится синтаксический и семантический анализ текстов (выявление синтаксем и их значений). Полученные в результате анализа данные укладываются в линейные упорядоченные списки вхождений слов в документы с весами и значениями Поиск представляет собой слияние линейных упорядоченных списков.


Слайд 9

Особенности архитектуры Exactus Модули расположены на узлах кластерной установки. Управление задачами осуществляется посредством PVM-машины (Parallel Virtual Machine). Модули разделены на два типа: основные (лингвистические процессоры, индексаторы и т.д.) и вспомогательные (агрегаторы, синхронизаторы и т.д.). Система является кросс-платформенной, код написан на С и C++. Экспериментальная установка состоит из 8-и узлов кластера пиковой производительностью 100 Gigaflops. В качестве вычислительных узлов используются обычные персональные компьютеры, объединенные в стойку. Для взаимодействия узлов используется Gigabit Ethernet.


Слайд 10

Exactus – вид сбоку


Слайд 11

Экспериментальная проверка алгоритма Exactus (1) Принципы оценки результатов поиска Эксперт оценивает соответствие документов исходному запросу на основе расширенного описания информационной потребности Используются следующие шкалы оценки релевантности: точно релевантно; возможно релевантно; вероятно релевантно; не релевантно; невозможно оценить. Результат считается релевантным, если он получил оценку по одному из первых двух пунктов шкалы


Слайд 12

Экспериментальная проверка алгоритма Exactus (2) Для выставления оценки результата используются два способа: Строгая оценка AND – документ получает оценку релевантен или нерелевантен, если все оценщики выставили соответствующую оценку. Нестрогая оценка OR - результат получает оценку релевантен, если хотя бы один оценщик выставил соответствующую оценку.


Слайд 13

График TREC


Слайд 14

Краткий анализ результатов участия в РОМИП-2007 (1) Exactus принимал участие в поиске по коллекции белорусского Интернета. Наилучшие результаты достигнуты системой в AND-оценке по точности. Хорошие оценки достигнуты по другим показателям. Отсутствие Page Rank в алгоритме Exactus не привело к отставанию от других систем в точности и полноте поиска.


Слайд 15

Краткий анализ результатов участия в РОМИП-2007 (2) Полученные на РОМИП результаты показывают перспективность симбиоза лингвистических и статистических алгоритмов поиска и возможность их применения в реальных условиях. Скорость поиска Exactus сравнима с современными поисковыми машинами на больших объемах данных (не более 2х секунд на любой запрос по коллекции РОМИП). Индексация и лингвистический анализ, по-прежнему, остаются узким местом Exactus. Единственный путь преодоления барьеров скорости анализа - использование современных вычислительных систем и параллельных вычислений.


Слайд 16

СПАСИБО ЗА ВНИМАНИЕ! Вопросы и замечания принимаются.


×

HTML:





Ссылка: