'

Geocoding – методы получения гео-координат из новостных потоков

Понравилась презентация – покажи это...





Слайд 0

Geocoding – методы получения гео-координат из новостных потоков Выполнил: Баклыков Денис Григорьевич denis.baklikov@gmail.com Научный руководитель: Намиот Дмитрий Евгеньевич dnamiot@abavanet.ru


Слайд 1

Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org База данных гео-объектов 8 миллионов записей Yahoo GeoPlanet Поиск гео-объектов по критериям Альтернативные названия 2


Слайд 2

Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3


Слайд 3

Трудности реализации Сложность обработки данных большой размер БД, нагрузка на сервер Нет открытых алгоритмов поиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4


Слайд 4

Исходные данные 5 Нижний угол Верхний угол Центр


Слайд 5

Архитектура Распределённая система База данных Гео-объекты, альтернативные названия Исторические данные новостных потоков Кластеризация системы Горизонтальная – дополнительные «ноды» Вертикальная – наращивание мощности сервера 6


Слайд 6

Реализация 7


Слайд 7

Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул\.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева


Слайд 8

Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 Неглинная за последние 10 лет очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы На Тверской стояли десятки военных машин, ожидая команды начала парада Тверской, Неглинная


Слайд 9

Заключение Реализована система, позволяющая: Определять около 90% гео-объектов Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие Поиск по области История новостей в заданной области 10


Слайд 10

Спасибо за внимание! Ваши вопросы 11 Денис Баклыков


×

HTML:





Ссылка: