'

МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ

Понравилась презентация – покажи это...





Слайд 0

МОДЕЛЬ УПРОЩЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТОВ СЛОВАРНЫХ ОПРЕДЕЛЕНИЙ Бочаров Виктор Факультет филологии и искусств СПбГУ Санкт-Петербург


Слайд 1

Зачем? полуавтоматическое пополнение онтологии автоматическое выделение троек «понятие» - «отношение» - «понятие» проверка оператором


Слайд 2

Источники Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001 Раздел проекта «Википедия» на русском языке


Слайд 3

Отношения Обобщение (значение по умолчанию) Тождество Частный случай (обратное к тождеству) Часть Целое Инструмент или назначение другое


Слайд 4

Примеры СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки. СОЦИОСФЕРА same ЧЕЛОВЕЧЕСТВО


Слайд 5

Ещё примеры СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения, соответствующие другому органу чувств. СИНЕСТЕЗИЯ gen ЯВЛЕНИЕ СИНЕСТЕЗИЯ same ВОСПРИЯТИЕ


Слайд 6

Как? Базовая гипотеза: «родовой по отношению к определяемому термин представлен опорным словом - первым по порядку существительным в именительном падеже»


Слайд 7

Первый результат


Слайд 8

Проблемы Омонимия «о чукотском море» леммы для словоформы «море» МОРЕ (ср.р.) МОР (мр.р.) МОРА (жр.р.) Мало информации: все связи одного типа (род-вид) связи только с одним словом в определении


Слайд 9

Усложнённый вариант


Слайд 10

Лексикографическая обработка сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется)


Слайд 11

Примеры АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков


Слайд 12

Синтаксический анализ Используются компоненты АОТ Упрощённые правила: только группы с вершиной – существительным Строится дерево зависимостей


Слайд 13

Грамматика ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP];


Слайд 14

Грамматика: примеры ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ


Слайд 15

Структура составляющих


Слайд 16

Дерево зависимостей


Слайд 17

Частичное снятие омонимии


Слайд 18

Извлечение отношений Правила (код на Perl) обход дерева зависимостей операции: записать текущее слово с текущим названием отношения изменить текущее название отношения выбрать следующее слово


Слайд 19

Род, вид, сорт… изменить текущее название отношения на «обобщение» выбрать следующее существительное записать ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Пример правила


Слайд 20

Было / стало


Слайд 21

Статистика 25.324 словарных статей 26.376 записей в БД 4.679 опорных слов


Слайд 22

Качество Экспертная оценка 200 словарных статей: 179 (90%) – правильно 21 – неправильно: 16 - недоработки ПО (синтаксис) 5 – неверна гипотеза о том, что опорное слово есть в первом предложении определения предел точности: 179 + 16 / 200 = 97.5%


Слайд 23

Примеры АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование , притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.


Слайд 24

Википедия Отличия: обработка wiki-разметки оформление статей … разнообразно «первое предложение определения» надо искать статьи без определений («Советско-германские договоры 1939», «Список кодов ответов FTP», …) статьи-даты («23 марта — 82-й день года …») «формализованная» информация (шаблоны) Размер: 430 тыс. статей (дамп от 6 октября 2009)


Слайд 25

Вики-разметка вики-разметка: '''Прего?ля''' (древнепрусск. ''Прэйгара'', {{lang-de|Pregel}} — Прегель, {{lang-lt|Prieglius}}, {{lang-pl|Pregola}}) — [[река]], впадающая в [[Балтийское море]], точнее в пресноводный [[Калининградский залив|Калининградский (Вислинский) залив]]. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км?. результат: Прего?ля (древнепрусск. Прэйгара, нем. Pregel — Прегель, лит. Prieglius, польск. Pregola) — река, впадающая в Балтийское море, точнее в пресноводный Калининградский (Вислинский) залив. Длина Преголи — 123 км, вместе с Анграппой (один из важнейших притоков) — 292 км. Площадь бассейна Преголи — 15,5 тыс. км?.


Слайд 26

«Плохие» первые предложения Nyan Koi! (?????!) манга, созданная Сато Фудзиварой. ‘‘‘ИНСТИТУТ ГУМАНИТАРНЫХ ИСТОРИКО-ТЕОРЕТИЧЕСКИХ ИССЛЕДОВАНИЙ’’’ (ИГИТИ) создан в рамках Государственного университета – Высшей школы экономики (ГУ-ВШЭ) в 2002 г. «Описание мира в науке и религии отличается в своей основе. …»


Слайд 27

Шаблоны {{НП-Россия |статус = Город |русское название = Великий Новгород |регион = Новгородская область |глава = [[Бобрышев, Юрий Иванович|Юрий Бобрышев]] |дата основания = VIII{{!}} VIII—IX век |первое упоминание = 859{{!}} 859 (Официально, условно) |прежние имена = Новгород (до [[1999 год]]а) |площадь = 90,08 |население = {{Падение}} 215 351 |год переписи = 2009 |плотность = 2405,6 |этнохороним = новгоро?дцы,<br />новгоро?дец,<br />новгоро?дка |часовой пояс = +3 |почтовые индексы = 173xxx |телефонный код = 8162 |автомобильный код = 53 |цифровой идентификатор = 49401000000 |категория в Commons = Velikiy Novgorod |сайт = http://www.adm.nov.ru |информация для туристов = http://www.visitnovgorod.ru }}


Слайд 28

Инструменты Wikipedia XML dump (все статьи одним файлом) Wikiprep.pl (версия проекта Zemanta) вики-разметка -> ~HTML / plain text разворачивает шаблоны URL: http://wikiprep.sf.net/


Слайд 29

Вопросы?


×

HTML:





Ссылка: