'

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ

Понравилась презентация – покажи это...





Слайд 0

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний — лекции 1-2. 1.2. Количественная спецификация ЕЯ систем — лекции 3-4, 8. 1.3. Логико-статистические методы извлечения знаний — лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря-тезауруса. 1.5. Пример исследования ЕЯ ресурса.


Слайд 1

Лекция 7. ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА Парадигматическая модель ЕЯ описания ПОРМ Производные парадигматические конструктивы


Слайд 2

Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, 2002. — книга в комплекте с CD ROM — С. 64–73.


Слайд 3

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ЕЯ ОПИСАНИЯ ПОРМ ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА представление его в виде множества основных парадигматических конструктивов, или интерпретированных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания: ?


Слайд 4

СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА Синтагматическая — формально-языковое описание. Парадигматическая — естественно-языковое описание, формально-языковое описание, словарно-тезаурусное описание. парадигматическая модель — множество синтагматических моделей текста и его интерпретаций


Слайд 5

Литература Ю.Н.Филиппович Интеграция предмета, образа и субъекта в концептуальном проектировании информационных технологий и систем // Интеллектуальные технологии и системы. Сборник статей аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им Н.Э.Баумана,1998. С. 9–33. Ю.Н. Филиппович Семиотическая концепция интеграции информационных технологий // Sсriрtа linguistiсае аррliсаtае. Проблемы прикладной линг­вистики – 2001. Сб.ст. / Отв. ред. А.И. Новиков. – М.: «Азбуковник», 2001. С. 319–342.


Слайд 6

ПАРАДИГМАТИЧЕСКИЕ КОНСТРУКТИВЫ ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА — комплекс основных и производных парадигматических конструктивов. Основные парадигматические конструктивы: словарные статьи, парадигматические отношения. Производные парадигматические конструктивы: частичные словники (ограниченные неформальным признаком), словоуказатели (предметные, именные, и т.п.), конкордансы, словари, ареалы, тезаурусы и др.


Слайд 7

ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ) УКАЗАТЕЛЬ . , . , , — указатель слов, — выбор слов, обозначающих предметы реального мира. где: Предметный указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-предметов». В предметный (терминологический) указатель могут быть включены основные термины и понятия ПОРМ, выраженные словами, словосочетаниями (2-х и 3-х словными). Отдельно могут быть представлены аббревиатуры.


Слайд 8

ИМЕННОЙ УКАЗАТЕЛЬ . , . — указатель слов, — выбор слов, являющихся именами. где: Именной указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-имен». В именной указатель могут быть включены все имена собственные, в т.ч. и представленные словосочетаниями. Отдельно могут быть представлены различные их типы: аббревиатуры, персоналии, организации,топонимы и др.


Слайд 9

ГРАММАТИЧЕСКИЙ СЛОВАРЬ Грамматический словарь ЕЯ описания ПОРМ может включать: существительные, прилагательные, глаголы, наречия, числительные, предлоги, междометия, союзы, частицы и местоимения. Структура словарной статьи грамматического словаря <ЛЕММА> <МИ> {S} [S] <СЛОВОФОРМА1> <МИ1> [i1] <СЛОВОФОРМА2> <МИ2> [i2] ... <СЛОВОФОРМАk> <МИk> [ik] ЛЕММА — слово в основной форме; МИ — морфологическая информация о слове; МИj — подробная грамматическая информация; s — количество словоформ в тексте; S — общее количество словоформ в тексте; ij — частота j-ой словоформы. Интерпретация состоит в лемматизации путем формального морфологического анализа с последующим разрешением проблем омонимии субъектом.


Слайд 10

Литература Г.О.Сидоров. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сб. ст. / Под ред. Ю.Н.Караулова. – М.: Инт.Русск. яз. РАН, 1996. С.266–300.


Слайд 11

СЛОВАРЬ СЛОВОСОЧЕТАНИЙ . Структура словарной статьи словаря словосочетаний <ЛЕММА> (СЛОВОСОЧЕТАНИЕ1), (СЛОВОСОЧЕТАНИЕ2), ... (СЛОВОСОЧЕТАНИЕk). Здесь: ЛЕММА — слово в основной форме из грамматического словаря; СЛОВОСОЧЕТАНИЕ — двух-, трехсловное словосочетание из предметного указателя, являющееся термином или основным понятием ЕЯ описания ПО. Интерпретация состоит в выборе устойчивых словосочетаний.


Слайд 12

КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ) Структура словарной статьи конкорданса (словаря контекстов) <ЛЕММА/ СЛОВОСОЧЕТАНИЕ> <КОНТЕКСТ> <АДРЕС>. Здесь: КОНТЕКСТ — ближайшее “окружение” словоформы или словосочетания, размер которого может быть выбран произвольно, однако в большинстве случаев его следует ограничить предложением (количество контекстов для одной леммы должно быть от трех до пяти, а для словосочетания достаточно одного – двух); АДРЕС — указание на источник контекста. Интерпретация состоит в выборе контекстов, их величины и количества.


Слайд 13

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1) Словарь определений может включать описание основных понятий ПОРМ, взятых из предметного указателя. Словарная статья может включать следующие сведения: заголовочное слово (понятие из предметного указателя), варианты определений (толкований) из других словарей определений, устойчивые словосочетания (из словаря словосочетаний) эксцерпции (примеры контекстов из текстов ЕЯ описания ПО) указания источников контекстов из конкорданса и др. Интерпретация состоит в определении состава и структуры словарной статьи


Слайд 14

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2) СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ. ИСКУССТВО, с. Умение, знание, искусство. Како не зримъ прилежно мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго. Курб. Пис., 387. XVII в. ? XVI в. 4 ч<еловека> бомбардировъ, немец­кой породы, которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство. ДАИ XII, 383. 1695 г. 2. Опыт; способ к узнаванию чего-л., эксперимент. Искусством бо сие разум#хомъ. М. Гр. I, 300. XVI—XVII вв. ? XVI в. Т#мъ искусствомъ опознаваемъ. Травник Любч., 407. XVII в. ? 1534 г.


Слайд 15

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (3) Структура словарной статьи Словаря русского языка XI-XVII вв.


Слайд 16

ТЕЗАУРУС (1) Парадигматический конструктив тезаурус может быть представлен как тройка формальных объектов: или {<синтагма XI ><отношение R ><синтагма XJ >}. Такое представление парадигматического конструктива позволяет рассматривать его как элемент формального языка RX-кодов: X-термины; R-релатемы


Слайд 17

ТЕЗАУРУС (2) Примерами парадигматических отношений являются формальные модели оценки «силы связи» между языковыми элементами — коэффициенты . В частности можно представить конструктив парадигматического отношения в следующем виде: , где является соответствующей интерпретацией R коэффициента. Парадигматическое отношение является элементом графа одной из формальных моделей представления знаний, (сетевых, фреймовых и т.п.).


Слайд 18

ТЕЗАУРУС (3) L = (U, V), где: U – множество вершин сети (лемм), V – множество связей. U = { u1, u2, ..., uK }, где: k – число выделенных лемм. V ? U2 , V = { <ui,uj> } R(ui,uj) – функция, определенная на множестве U2 – количественная мера связи между вершинами ui и uj. Свойства: R(ui,uj): R(ui,uj) = 0 ? <ui,uj> ?V; если <ui, uj> ? <uj, ui>, то R(ui,uj) ? R(uj,ui). Описание тезауруса в виде простой семантической сети <ui, uj> – ориентированная связь от вершины ui к вершине uj


Слайд 19

ТЕЗАУРУС (4) Задача построения функции R(ui,uj) на основе корпуса текстов T = C1(T)+...+Cq(T), где Сi(T)? Cj(T)=?, i,j (i?j) ?[1,q] Введем характеристики: |T| – число слов в тексте T, |Сi(T)| – число слов в i-ом контексте текста T. При условии, что Сi(T)? Cj(T)=?, i,j (i?j) ?[1,q], имеем , где q – гранулярность разбиения, т.е. число непересекающихся контекстов, на которые разбивается текст T. Будем считать, что |Ci(T)|=|Cj(T)|, для ? i,j ?[1,q], тогда |T| = q|C(T)|, где С(T) некоторый контекст из выбранных.


Слайд 20

ТЕЗАУРУС (5) Поскольку С(T) тоже является текстом, то для него можно определить частотную функцию N(w,C(T)), значение которой равно числу слов w в контексте С(T). Такая частотная функция вводится на всех контекстах N(w,C1(T)), N(w,C2(T)),..., N(w,Cq(T)). Будем рассматривать два слова w1 и w2, принадлежащие тексту T. Для них можно записать два ряда: N(w1,C1(T)), N(w1,C2(T)),..., N(w1,Cq(T)) N(w2,C1(T)), N(w2,C2(T)),..., N(w2,Cq(T)) Обозначим: N(w1,C(T)) – число слов w1 в некотором контексте из числа выбранных; N(w2,C(T)) – число слов w2 в некотором контексте из числа выбранных;


Слайд 21

ТЕЗАУРУС (6) Определим функцию n(х, у) числа контекстов, в которых слово w1 имело частоту х, а слово w2 – частоту у. n(х,у) = n(N(w1,C(T)), N(w2,C(T))) R = |С(T)| – размер контекста, nх – суммы по столбцам, nу – суммы по строкам, – средние значения по столбцам =


Слайд 22

ТЕЗАУРУС (7) Для построения семантической сети требуется построение корреляционной матрицы для имеющихся в T пар слов <wi, wj>. В качестве меры связи между словами w1 и w2 могут использоваться значения коэффициентов корреляции или корреляционного отношения. Факторы построении семантической сети : а) процедуру лемматизации исходного множества слов; б) размерность корреляционной матрицы RхR, ее избыточность; в) гранулярность разбиения q; г) «направленность» связи.


Слайд 23

Литература А.В.Прохоров. Методы исследования естественно-языкового описания предметной области «Информатика и вычислительная техника» // Интеллектуальные технологии и системы. Сб. ст. аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.


Слайд 24

АРЕАЛ (1) Парадигматический конструктив ареал — часть тезауруса, выделенная по значению селективного критерия, например коэффициента «силы связи». Построения парадигматических ареалов — задача кластерного анализа. В случае представления тезауруса в виде простой семантической сети задача сводится к нахождению подграфа с заданными свойствами вершин (лемм) или дуг (коэффициентов «силы связи»).


Слайд 25

АРЕАЛ (2) , Тезаурус — неполносвязанный ориентированный граф L = (U,V) : U = { u1, u2, ..., uN }, V ? U2 , V = { <ui,uj> }, R(ui,uj) = k(ui,uj)


Слайд 26

АРЕАЛ (3) Тезаурус в виде простой семантической сети L = (U,V) ? Удаление ребер <ui, uj>, для которых R(ui,uj)<R0 и Vij < V0. ? Приведенная семантическая сеть L(R0,V0) Семантическим ареалом A в семантической сети L(R0,V0) будем называть совокупность вершин A = { ui }, для которых выполняются следующие условия: Для ? ui, uj ?A, Vij > V0; Для ? ui, uj ?A верно, что R(ui,uj) > R0 Для ? ui ?A и uj ? A верно, что R(ui,uj) ? R0


Слайд 27

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ Что такое парадигматическая модель текста? Какую структуру имеет парадигматический конструктив? Какую структуру имеют парадигматические конструктивы: предметный и именной указатели, словарь? Какую структуру имеют парадигматические конструктивы словарей: грамматического, словосочетаний, текстов, определений? Какую структуру имеет парадигматический конструктив тезаурус? Какую структуру имеет парадигматический конструктив ареал?


×

HTML:





Ссылка: