'

Автоматическое наполнение информационных систем библиограическими сведениями о научных публикациях

Понравилась презентация – покажи это...





Слайд 0

Автоматическое наполнение информационных систем библиограическими сведениями о научных публикациях О.О.Дяченко Новосибирский государственный университет Новосибирск, Россия Ю.А.Загорулько Институт систем информатики имени А.П. Ершова СО РАН Новосибирск, Россия RCDL –2011, Воронеж. 19-22 октября


Слайд 1

Поставленные задачи Разработка и реализация методов и средств автоматизации пополнения контента портала знаний, включая создание: модуля экспорта формальных описаний публикаций в формат, пригодный для использования сторонними системами модуля добавления/обновления данных портала Интеграция разработанных средств в портал знаний по компьютерной лингвистике.


Слайд 2

Подходы к созданию формальных описаний публикаций ResearchIndex (SiteSeer, NEC) Модель БД цитирования (Д.Сонг) Reference managers BiblioScape 8 I, Librarian Mendeley Desktop …


Слайд 3

Терминология Значимая часть текста - часть текста, о которой с высоким уровнем уверенности известно, что она содержит необходимую для описания текста информацию. Поле - компонент цитаты или некоторого значимого отрывка текста, представленный в тексте или цитате своим значением, образуя пару < атрибут – значение >. Пример: «автор», «заголовок» и др. Подполе - составляющая часть сложного поля. Пример: поле «страницы» со своим значением «С. 251-256» подполе «признак поля» >>> «С.», «начальная страница» >>> «251», «конечная страница» >>> «256». Индикатор (или маркер) - слово или словосочетание, которые характерны для значений или признаков некоторого поля и позволяют однозначно восстановить пару «поле – значение». Пример: «http://» является маркером для URL в тексте.


Слайд 4

Формальное описание статьи Статья Описание Цитаты … Описание Описание Описание Описание


Слайд 5

Формальное описание статьи Основные поля: Автор, Название, Название журнала, Год, Город, Название конференции, Том, Выпуск, Часть, Страницы, Издательство, ISBN, URL и другие. Описание Поле-значение Поле-значение Поле-значение Поле-значение Поле-значение Список Авторов


Слайд 6

Подход к автоматизации обработки текста Генерация формального описания: Определение основной информации о статье выделение значимой части текста («шапки»); определение автора, названия и др. Разбор списка цитируемой литературы. выделение списка цитируемой литературы; разбор списка на отдельные элементы (цитаты); синтаксический разбор цитаты.


Слайд 7

Синтаксический разбор цитат (1) Синтаксическим разбором цитаты мы будем понимать определение полей, входящих в нее, и нахождение их значений. Синтаксический разбор осуществляется путем сопоставления цитаты различным шаблонам: <шаблон> ::= {<блок-поле>|<симв.блок>}+ Символьный блок – набор литер, которые обязательны для присутствия в цитате в указанном в шаблоне порядке. Пример: «//», - присутствует описаниях журнальных статей. Блок-поле – блок, соответствующий некоторому полю. Пример: <Автор> Каждому шаблону присвоен свой вес, обозначающий его авторитетность.


Слайд 8

Синтаксический разбор цитат (2) Этапы: нормализация цитаты; поиск полей цитаты среди цитат, имеющихся в библиографической базе; применение шаблонов. Нормализация цитаты - это устранение из цитаты незначимых символов, приведение ее к виду, удобному для сопоставления с шаблонами. Включает удаление повторяющихся пробелов, некоторых комбинаций символов и др.


Слайд 9

Тестовые данные (на основе 50 статей)


Слайд 10

Проблема пополнения контента портала


Слайд 11

Проблема пополнения контента портала Полные и неполные написания Опыт теории лингвистических моделей «Смысл - Текст» Опыт теории лингвистических моделей Ошибки и различные написания Опыт теории лингвистических моделей «Смысл - Текст» ОПЫТ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ МОДЕЛЕЙ


Слайд 12

Методы пополнения контента портала Добавить статью Есть с таким же названием Есть общая ссылка Уже есть в базе. Добавить новые данные. Добавить данные как новую статью Запомнить ID Добавить авторов Добавить связи с авторами Добавить ссылки Добавить связи цитирования


Слайд 13

Методы пополнения контента портала Добавить автора Есть с с такой же фамилией и именем Есть совпадающий email? То же место работы? Тот же город? Новый Найден Найден


Слайд 14

Параметры метода Строки сравниваются на основе расстояния Левенштейна — минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую. Процент расстояния Левенштейна от минимальной длины сравниваемых строк


Слайд 15

Параметры метода Строки считаются совпадающими, если расстояние меньше заданного порогового значения Варьируя пороговые значения, можно менять качество сравнения объектов


Слайд 16

Качество сравнения при различных параметрах 2000 выделенных названий, 71 уже присутствовали в БД Среди добавляемых 1378 авторов, только 105 персон уже оказались существующими в БД


Слайд 17

Результаты работы Разработаны методы и средства создания формальных описаний научных статей и БД цитирования. Реализована возможность экспортирования полученных формальных описаний в формат XML. Разработаны методы и средства автоматизации пополнения контента портала знаний данными о публикациях по тематике портала знаний. Проведены тестирование разработанных методов на реальных данных (труды конф. Диалог 2005-2010).


Слайд 18

Заключение и перспективы Добавить возможность конвертации имеющихся в базе цитат в другие форматы, например, BibTex. Реализовать поддержку различных форматов документов (*.pdf, *.doc, *.html). Добавить функциональность Reference Manager’ов: Конвертация полученных цитат в форматы, необходимые для различных видов публикаций (например, стандарты оформления ссылок в журналах). Визуализация связей между цитатами и авторами.


Слайд 19

Благодарности Работа выполняется при финансовой поддержке РФФИ (проект № 09-07-00400).


Слайд 20

Спасибо за внимание!


Слайд 21

Представление формального описания


Слайд 22

Разбор с помощью шаблонов определение типа цитаты; Журнальная статья, книга, труды конференций, электронный источник или серийные издания. применение всех полных шаблонов, подходящих типу цитаты; Выбор среди подошедших наилучшего по весу, далее по количеству блоков-полей «жадное» отделение данных при помощи частичных шаблонов.


Слайд 23

1. Определение информации о статье Отделение «шапки»: наличие индикаторов начала глав; «Введение», «Introduction» и др. наличие маркеров ключевых слов; «Ключевые слова», «Keywords» наличие маркеров аннотации; «Статья содержит», «в работе рассматривается» и др. определение начала первой главы «по большому количеству слов» положение авторов. Разбор происходит с использованием тех же маркеров и шаблонов.


Слайд 24

2. Определение и разделение СЦЛ Отделение списка литературы: по наличию маркеров; по «большому количеству» авторов; по нумерации; по «пустым» строкам; Разделение списка литературы: по нумерации; по специальным маркерам («Guaridano 2003 - »); по переводу строки;


Слайд 25

Пример 1: <Автор><Название>//<Источник>:<Выпуск><Год><Другое> 2: <Автор><Название>//<Источник><Том><Год><Другое> 3: <Автор><Название>//<Источник><Город><Год> <Том> <Страницы> Загорулько Ю.А., Боровикова О.И. Технология построения онтологий для порталов знаний по гуманитарным наукам // Труды Всероссийской конференции с международным участием “Знания-Онтологии-Теории” (ЗОНТ-07). Новосибирск, 2007. Т.1, С.191-200.


×

HTML:





Ссылка: