'

Гибкий web-crawler

Понравилась презентация – покажи это...





Слайд 0

Гибкий web-crawler Дизайн и разработка Артём Курапов


Слайд 1

Схема доклада Введение. Объект и цель исследования. Способы решения проблемы. Алгоритмы индексации и упрядочивания данных. Взгляды на выборку, перепросмотр и распределение нагрузки. Проделанная работа. Особенности и жертвы разработки. Заключение и выводы.


Слайд 2

Web-crawler это.. Инструмент для разных целей Основная цель – сбор данных для поиска по ним Косвенные цели – анализ документов в целом


Слайд 3

Кому и для чего это надо? Web-мастерам среднего уровня со знаниями основ LAMP (для образования) Аналитикам, администраторам, архитекторам (для планирования) Создателям информации (для сбора фактов)


Слайд 4

Сбор данных Индексация вручную (copy-paste). Рутинная работа. Автоматическая индексация. Основная проблема – алгоритм индексации. Оценка полученных данных для дальнейшего отображения


Слайд 5

Алгоритмы индексации дерева Наивный Breadth-first Depth-first Uniform-cost


Слайд 6

Ограничения индексации Необходимы из-за физических ограничений сервера в случае неизвестного числа документов Естественное ограничение – новые технологии flash, video, java applet, javascript, необходимость авторизации, captcha Настраивыемые ограничения (глубина,число документов, тип ресурсов)


Слайд 7

Web-crawler как часть большего Selection, revisit policy Лёгкость интеграции Возможность расширения (параллелизация) за счёт многопоточности (crontab) : скорость и нагрузка Внешние системы обработки данных – video, image, audio, xml, rdf..


Слайд 8

Проделанная работа


Слайд 9

Добавление паука


Слайд 10

Добавление домена


Слайд 11

Список доменов


Слайд 12

Взгляд изнутри MySQL 5 PHP5 Apache 2 nnCron проиндексировано 80 тыс страниц 1-2 страницы в секунду Open Source


Слайд 13

Заключение Много алгоритмов, необходима конкретная цель Сделанный crawler – медленный, но гибкий Рост в скорости требует бОльшего проектирования баз данных. Рост в аналитике – отдельных модулей визуализации


Слайд 14

The end


Слайд 15

Замена PHP ASP JSP CGI Perl


Слайд 16

PHP популярность


×

HTML:





Ссылка: