'

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Понравилась презентация – покажи это...





Слайд 0

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Метахаус


Слайд 1

ВЕРТИКАЛЬНЫЙ ПОИСК Ориентирован на определенную область Данные хранятся с учетом структуры предметной области Позволяет более точно задать запрос Возможность фильтрации, сортировки 2


Слайд 2

ПРИМЕР 3


Слайд 3

ПРИМЕРЫ ЗАПРОСОВ черная икра в ресторане с караоке около кремля гостиница с бассейном около киевской комплексная мойка в выхино преображенская площадь бассейн 50 метров банкомат с долларами рядом с пушкинской 4


Слайд 4

ПОДХОДЫ К СБОРУ ДАННЫХ Полуавтоматический (+) Универсальность (+) Гибкость (-) Временные затраты (-) Участие человека Автоматический (-) Не для каждого сайта (+) Быстро (+) Дешево 5


Слайд 5

ПОЛУАВТОМАТИЧЕСКИЙ СБОР Свести к минимуму человеческое участие Легкость реализации Простота поддержки Никаких RegExp, XPath 6


Слайд 6

ИДЕЯ 7


Слайд 7

КЛАСС Описывает структуру предметной области Похож на ООП класс Набор правил, как эту структуру обрабатывать и валидировать, нормализовывать 8


Слайд 8

ПРИМЕР КЛАССА Товар интернет магазина 9


Слайд 9

ПРИМЕРЫ ТИПОВ price 1 000,10р. -> 1000.00 1,000,000 рублей -> 1000000.00 address Пушкинская -> Москва, Пушкинская площадь; lat: 44.333, lon: 33.112, 10


Слайд 10

ПРИМЕР ШАБЛОНА 11 Средние временные затраты на 1 шаблон: 10-15 минут


Слайд 11

РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА Данные структурированы , провалидированы, нормализованы Удалены дубли Есть diff по сравнению с предыдущими данными Мониторинг «отвалившихся» шаблонов 12


Слайд 12

ВОЗМОЖНОСТИ ПОИСКА Разбор запроса Поддержка морфологии и транслита Неверная раскладка клавиатуры «Возможно, вы имели в виду» Фасеты Фильтрация, сортировка, группировка Гео-поиск 13


Слайд 13

РЕАЛИЗАЦИЯ Работает на базе Apache Solr Разная структура документа в зависимости от предметной области Можно гибко настраивать правила индексации через метаданные класса Отдельный индекс для анализа запроса 14


Слайд 14

СПАСИБО! Минченков Павел pavel@metahouse.ru Метахаус


×

HTML:





Ссылка: