'

Комбинированное электронное представление печатных изданий

Понравилась презентация – покажи это...





Слайд 0

Комбинированное электронное представление печатных изданий С.И. Трифонов Лаборатория Разработки и Внедрения Информационных Технологий Научная педагогическая Библиотека им. К.Д. Ушинского РАО RCDL-2011


Слайд 1

Электронные библиотеки: эволюция понятия «Научное наследие» ЭБ РАО


Слайд 2

Технологии для электронной библиотеки Подготовка изданий для электронной библиотеки требует разработки технологии, поддерживающей: Большие объёмы работы, большую долю ручного квалифицированного труда Единые требования к качеству подготовки электронного вида, по возможности гибкие Средства интеграции изданий в библиотеку - систему, с единой навигацией и поддержкой возможностей информационного поиска Комбинированное представление — одно из ключевых решений, которые должна поддерживать любая перспективная технология


Слайд 3

Подготовка электронного издания: операции Текст Изображения вычитка Текстовое представление Графическое представление сканирование обработка изображений распознавание разметка оформительская / логическая


Слайд 4

Форматы представления изданий Текстовое представление: XHTML единый документ на всё издание Графическое представление: JPG изображение каждой страницы Комбинированное представление: XHTML + JPG + <графический индекс> Графический индекс имеет два вида: текстовый — понятный редактору, постраничный бинарный — оптимизированный под задачи сервера библиотеки, единый


Слайд 5

Графический индекс Вопросы, на которые предстоит ответить: Какие задачи решает графический индекс? Какую информацию он содержит? Зачем нужны два вида (текстовый и бинарный)? Как устроен формат индекса? Почему не PDF или DjVu?


Слайд 6

Основная задача — показать результаты поиска Задача: выделять найденные слова на графическом изображении - подсветки Запрос: «движение преобладает»


Слайд 7

Содержание графического индекса Для каждого слова текстового представления графический индекс должен хранить соответствие, где оно находится: на какой странице и в каком прямоугольнике Дополнения: Прямоугольников может быть несколько Kоординаты могут быть приблизительными Могут быть переносы между страницами


Слайд 8

Пример текстового вида графического индекса W 177 386 217 587 |АКАДЕМИЯ _W 177 600 217 953 |ПЕДАГОГИЧЕСКИХ _W 177 965 217 1066 |НАУК _W 177 1079 217 1180 |СССР W 477 378 579 440 |Л . 477 440 579 464 |. _W 477 489 579 551 |С . 477 551 579 574 |. _W 477 598 579 1186 |ВЫГОТСКИЙ W 643 541 739 1023 |СОБРАНИЕ W 754 500 851 1069 |СОЧИНЕНИЙ W 869 717 929 840 |ТОМ W 937 643 994 909 |ПЕРВЫЙ W 1974 654 2034 880 |МОСКВА


Слайд 9

Флаги графического индекса «_» перед атомом стоит пробел «W» атом словный «.» атом несловный «-» перенос слова «!» пометка «проверить текст» «?» пометка «проверить графику» «/» разрыв абзаца


Слайд 10

Архитектура сервера библиотеки Пакеты изданий Изображения страниц, JPG Текст, XHTML Графический индекс, <bin> Сервис просмотра Поисковая машина Сервис подсветок


Слайд 11

Почему не PDF или DjVu? Форматы PDF и DjVu — прекрасные решения для отдельных книг и их автономного использования. Но они не адекватны для создания электронных библиотек — потому, что они разработаны для других целей, см. выше Решение для комбинированного представления — это технологическое решение, специально разрабатываемое под электронные библиотеки. Различий в «идеологии» — нет.


Слайд 12

Вопросы?


×

HTML:





Ссылка: