'

Санкт-Петербургский Государственный Университет

Понравилась презентация – покажи это...





Слайд 0

ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.


Слайд 1

Цели проекта Легко расширяемый каркас Поддержка разных языков Интеграция с Knowledge.Net


Слайд 2

Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей с применением шаблонов Анализ построенного графа Сохранение результата


Слайд 3

Получение документов и первичный анализ текста Получение документов от “поставщиков” Разбиение документа на статьи (текст, список, таблица и т.д.) Разбиение текста на блоки … Текстовый формат – это очень гибкий путь для описания различных типов информации… 1) Один 2) Два 3) Три Страна. Столица. Англия. Лондон. Украина. Киев.


Слайд 4

Морфологический анализ текста Определение языка Определение морфологической формы слов Создание сущностей Слово(«Знания») «Знания» текущая м. ф.: существительное среднего рода, множественное число, вн. падеж «Знание» основная м. ф.: существительное среднего рода, единственное число, им. падеж Русский English … MRD XML … Сущность Класс(«Знание»)


Слайд 5

Морфологический анализ > Типы сущностей > “Простые” сущности Сущность "разделитель" (separator). Например «.,;:!?()[]{}…» Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable). Например «17-го АВГУСТА» Сущность "связь" (relationship). Например «Земля МЕНЬШЕ Солнца»


Слайд 6

Морфологический анализ > Типы сущностей > “Настоящие” сущности Сущность "класс" (class). Например «знание». Сущность "свойство" (property). Например «полезное». Сущность "тип данных" (datatype). Дата и время (datetime) Целое число (Integer)


Слайд 7

Семантический анализ > Цели Создание отношений между сущностями Создание новых сущностей Добавление настоящих сущностей в граф Свойство(«удобный») Класс(«дом») Класс(«строение») Свойство(«кирпичный») Подкласс Свойство-Класс Свойство-Класс


Слайд 8

Семантический анализ > Типы отношений Отношение между свойством и классом Отношение “подкласс” Отношение “подсвойство” Отношение “эквивалентность” Отношение между двумя классами Отношение “условное правило”


Слайд 9

Семантический анализ > Описание шаблона Приоритет Паттерн Обработчики <Template Priority="10000" Pattern="#E.P #E.C ,? а? значить #E.P"> <Handler Name=“PropertyRelationship" Arguments="0, 1" /> <Handler Name="PropertyRelationship" Arguments="5, 1" /> <Handler Name="ConditionalRule" Arguments="1, 0, 5" /> </Template>


Слайд 10

Семантический анализ > Описание паттернов Логические операнды: «&»(и), «|»(или), «^»(не). Встречаемость: не указано, «+», «*», «?» #E.P, #E.C, #E.S, #E.U, #E.Int, #E.DateTime #M.Noun, #M.Adjective, #M.Verb, … #W.Month, #W.Number, … - держатель слов #H.Class, …- держатель клауз [#E.P #M.Adjective]+ [#E.C #M.Noun]


Слайд 11

Семантический анализ > Описание паттернов > Держатель слов <ClauseHolder Name="Class"> <Item Pattern="[#E.P #M.Adjective]* #E.C" Index="1" /> <Item Pattern="[#E.P #M.Adjective] , [#E.P #M.Adjective] #E.C" Index="2" /> </ClauseHolder> Держатель Клауз <WordHolder Name="Month"> <Item Word="ЯНВАРЬ" Value="1" /> <Item Word="ФЕВРАЛЬ" Value="2" /> <Item Word="МАРТ" Value="3" /> ... </WordHolder>


Слайд 12

Семантический анализ > Обработчики Заменить (replace) Создать сущность время Создать отношение «свойство-класс» Создать отношение «подкласс» Создать отношение «подсвойство» Создать отношение «условное правило» Создать отношение «класс-класс»


Слайд 13

Семантический анализ > Создание отношений Класс(«полезное») Класс(«знание») + <Template Priority=“4" Pattern="[#E.P #M.Adjective]+ [#E.C #M.Noun]"> <Handler Name=“PropertyRelationship" Arguments="0, 1" /> </Template> = Свойство(«полезное») Класс(«знание») Отношение «свойство-класс»


Слайд 14

Семантический анализ > Создание новых сущностей Число(«17») Класс(«ноябрь») + <Template Priority="11000" Pattern="#E.INT #W.Month #E.INT год"> <Handler Name="Replace" From="0" Count="4" > <CreateEntityHandler Name="CreateDateTime« Arguments="day=0, month=1, year=2" /> </Handler> </Template> = Время (17.11.2006) Число(«2006») Класс(«год»)


Слайд 15

Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Класс(«автобус») Класс(«транспорт») Свойство(«быстрое») Подкласс Свойство-Класс Класс(«средство передвижения») Подкласс Подкласс Свойство-Класс


Слайд 16

Сохранение результата Сохранение знаний в формат Knowledge.Net Сохранение в формат OWL Сохранение и извлечение знаний из бинарного файла


Слайд 17

Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка


Слайд 18

Планы Поддержка создания «составных» сущностей (состоящих из нескольких слов: «творение рук человека») Расширение функциональности (добавление новых сущностей, отношений, шаблонов, обработчиков, …) Программа генерации шаблонов Разработка наглядных примеров


Слайд 19

? Контактная информация: smlkvalex@mail.ru http://www.knowledge-net.ru http://polyhimnie.math.spbu.ru


×

HTML:





Ссылка: