'

Поиск в Интернет

Понравилась презентация – покажи это...





Слайд 0

Поиск в Интернет Поисковые сервисы Интернет, основные определения. Классификация поисковых сервисов WWW. Структура поисковой системы и каталога. Краткий обзор поисковых систем. Феномен поисковой системы Google.


Слайд 1

1. Поисковые сервисы Интернет, основные определения. Модели структурирования информации в Internet Иерархическая (древовидная). Заключается в организации информационных связей в виде упорядоченного дерева.


Слайд 2

Древовидная организация информации получила свою практическую реализацию в системе Gopher (1989 г.), которая до 1995 г. являлась наиболее распространенной информационной технологией в Сети. Объединение Gopher-серверов называется gopher-пространством. В 1994 г. была создана универсальная поисковая машина Veronica, которая могла осуществлять поиск информации по всем серверам gopher-пространства. Достоинство: простота организации поисковых алгоритмов. Недостаток: ограниченная область применения (библиотечные ресурсы, базы данных издательских систем).


Слайд 3

Гипертекстовая модель описывает взаимосвязи информационных ресурсов Сети в виде направленного графа произвольной структуры. Данная модель реализована в пространстве информационных ресурсов World Wide Web (WWW) и является на сегодняшний день преобладающей, т.к. позволяет структурировать практически любую информацию Internet. Недостаток – сложность управления такой структурой.


Слайд 4

Поиском в WWW-пространстве называется процедура получения URL-адресов web-документов (страниц), содержимое которых удовлетворяет заданному критерию поиска, сформулированному в виде некоторого поискового запроса. Поиском в Internet занимаются специальные службы, которые называются поисковыми сервисами (серверами). Поисковые сервисы могут быть платными и бесплатными. К бесплатным сервисам относятся поиск информации на WWW-серверах, в FTP-архивах, USENET-конференциях и общих адресных книгах eMail. Услуги поиска в специализированных (коммерческих) базах данных, адресных серверах и справочных службах, как правило – платные.


Слайд 5

Поиск объектов: White- и yellow- поиск Под White(белым)-поиском понимается поиск адреса одного конкретного объекта по его достаточно определенному имени (человека - по фамилии, организации - по названию, файла – по имени и т.д.). Достаточно определенное имя означает, что объект поиска заранее известен: есть уверенность в его существовании и предлагаемое для поиска имя вполне уникально.


Слайд 6

Yellow(желтый)-поиск - это поиск одного или нескольких объектов по недостаточно определенному или вообще неопределенному имени. Недостаточно определенное имя означает неполное, неоднозначное или в чем-то неверное имя, не позволяющее найти объект средствами White-поиска. Неопределенное имя означает либо просто отсутствие какого-либо конкретного имени, либо такое его значение,которое позволяет лишь отнести обозначаемый им объект ккакому-то классу (например: найти какой-нибудь банк в Киеве).


Слайд 7

Функции поискового сервиса: Сбор, накопление и поддержка в актуальном состоянии информации о Сетевых ресурсах. Прием, обработка запросов пользователей и выдача результатов. Функции поисковых сервисов в Internet выполняют поисковые системы и поисковые каталоги. Поисковая система – это сервер или группа серверов, на которых функционирует поисковая машина и средства актуализации информации о Сетевых ресурсах. Поисковый каталог – это, организованый в виде иерархической структуры, список ссылок на Сетевые ресурсы. 2. Классификация поисковых сервисов WWW..


Слайд 8

Классификация поисковых сервисов в WWW


Слайд 9

Глобальные поисковые системы и каталоги содержат ссылки на информационные ресурсы по всему адресному пространству Internet. Google.com - поисковая система List.ru - поисковый каталог Yahoo.com - поисковый портал Региональные поисковые системы и каталоги содержат ссылки на информационные ресурсы по адресному пространству Internet, ограниченому некоторым регионом (Россия, Украина). Search.aol.com - поисковая система компании AOL Yandex.ru - поисковая система Рунет www.meta-ukraine.com - поисковая система Уанет


Слайд 10

Специализированные поисковые системы и каталоги содержат ссылки на информационные ресурсы из определенной предметной области (медицина, политика …) softseek.com – поиск программ ditto.com – поиск графических файлов cnn.com – политика, новости doctor.ru - медицина Локальные поисковые системы и каталоги содержат ссылки на информационные ресурсы внутри конкретной организации и ее локальной сети. rada.gov.ua – поиск законодательных актов на серверах ВР Украины 195.230.142.4/library – поиск книг в каталоге библиотеки КНТЭУ


Слайд 11

Метапоисковые системы – это службы, которые не имеют собственных поисковых средств, а для поиска информации прибегают к помощи одной или нескольких классических поисковых систем. Метапоисковые системы сетевого базирования – это сервера в Internet. (El.visti.net) Метапоисковые системы локального базирования – это специализированные программы, которые размещаются на компьютере пользователя и выполняют поиск в Сети, путем переадресации запроса на классические поисковые системы. (Copernic-2000)


Слайд 12

3. Структура поисковой системы и каталога.


Слайд 13

Клиент - это хост, с которого поступил запрос на поиск конкретного информационного ресурса. Поисковая машина - служит для трансляции запроса клиента в формальный запрос системы, поиска ссылок и выдачи результатов этого поиска пользователю. Индекс базы данных - основной массив данных ПС, служит для поиска адреса информационного ресурса. Является системообразующей компонентой ПС Робот-индексировщик - специальная программа для сканирования Интернет и поддержания базы данных индекса в актуальном состоянии.


Слайд 14

Упрощенная структура индекса базы данных ПС


Слайд 15

Размер индекса базы данных ПС – это количество адресов ресурсов сети, ссылки на которые содержатся в базе данных ПС. Размер словаря ПС – это количество слов, словосочетаний и фраз, которым поcтавлен в соответствие хотя-бы один адрес из индекса базы данных ПС. Период обновления индекса БД – это среднее время между двумя посещениями роботом индексировщиком одного и того же ресурса в Сети. или – это время, через которое роботы-индексировщики обнаружат и запишут в БД новый ресурс в Сети. Обучаемость – это свойство роботов-индексировшиков проводить селективный отбор информационных ресурсов (устранение повторов, игнорирование “грязных” ресурсов и т.д)


Слайд 16

клиент Дерево ссылок Робот индексировщик Web админ. Активная актуализация Пассивная актуализация Структура поискового каталога


Слайд 17

4. Краткий обзор поисковых систем


Слайд 18

5. Феномен ПС Google. Google — искаженное написание английского слова "googol", для обозначения числа, состоящего из единицы и ста нулей (10100). Создатели Google: Лоуренс Пейдж Сергей Брин Начали работу над системой в Стенфордском университете в 1995 г и в 1996 г. Запустили прототип Back Rub.


Слайд 19

Основные параметры ПС Google (www.google.com): Размер индекса – более 3 млрд. адресов; Размер базы – около 6 Терабайт; Поисковая машина состоит из 6000 серверов, занимающих три вычислительных центра; Обрабатывает в день около 110 млн. запросов Коммерческая версия Google была запущена в эксплуатацию в 2000г.


Слайд 20


Слайд 21

Концепция Google Для сортировки документов Google использует так называемый индекс PageRank - ссылка на документ. Вычисление PageRank Рассмотрим некую страницу А. Имеется n страниц (T1, Т2, …, Tn), цитирующих данный документ. Фактор затухания d (damping factor) — это вероятность того, что пользователь, просматривая страницу, перейдет на следующую страницу не по ссылке, а набрав случайный URL. d может колебаться в пределах от 0 до 1, но обычно устанавливается в значение 0,85. Тогда вероятность перехода по ссылке будет равна 1-d. C(A) — общее число ссылок со страницы А на другие документы. Тогда индекс PageRank PR(A) для страницы А равен: PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))


Слайд 22

PageRank страницы тем выше, чем больше других страниц ссылается на нее и чем эти страницы популярнее. Проект Google получает доходы из двух источников: Реклама. Доходы от лицензирования технологии Google. www.google.com/ – главный URL www.google.сom.ua/ – локализация


×

HTML:





Ссылка: