'

Представление устойчивых лексических сочетаний в компьютерном тезаурусе RussNet

Понравилась презентация – покажи это...





Слайд 0

Азарова Ирина Владимировна Синопальникова Анна Алексеевна Кафедра математической лингвистики СПбГУ Смрж Павел Технологический университет Брно (Чехия) Представление устойчивых лексических сочетаний в компьютерном тезаурусе RussNet


Слайд 1

Является моделью человеческого лексикона: в тезаурус включены смыслы, которые имеют словесное выражение в русском языке элементарной единицей является синонимический ряд (СИНСЕТ) между синсетами установлены семантические отношения семантическое отношение род-вид организует синсеты в набор деревьев Компьютерный тезаурус RussNet


Слайд 2

Cинсет, состоящий из одного слова «дом» Пример словарной статьи RussNet


Слайд 3

Объем: 21 млн. словоупотреблений Временной интервал: 1985 –2004 Типы текстов: 40% – газетные тексты 30% – научно-популярные тексты 20% – фрагменты художественных текстов 10% – тексты законов, договоров… баланс стереотипности, информативности и экспрессивности текстов отсутствие больших фрагментов текста Корпус современных текстов Бокренок 3


Слайд 4

Запрос на поиск контекстов слова Отбор контекстов в программе Бонито


Слайд 5

Контекстные маркеры можно задавать в виде рамок валентности – устойчивых семантических и морфо-синтаксических признаков контекстов; сочетаний слов, имеющих собственное связанное значение и форму выражения. Контекстные маркеры значений лексем в текстах


Слайд 6

Vn <N, ROLE, SEM, SYN, fo>… N – порядковый номер (при объективном порядке слов) ROLE семантическая роль в пропозиции; значения: СУБЪЕКТ, ОБЪЕКТ1, ОБЪЕКТ2… SEM семантический тип слов, заполняющих позицию; значения: ЧЕЛОВЕК, ПРЕДМЕТ, АРТЕФАКТ… SYN частотная форма морфо-синтаксичского заполнения позиции; значения: acc, dat, abl, «на» + acc … Fo 1 – обязательная (> 66-85%), 0 – факультативная (> 15-33%) Схема описания активной валентной рамки


Слайд 7

Направиться (358 контекстов - 100% ) “двинуться в каком-л направлении” Рамка валентностей (2 обязательные позиции) (1) субъект движения N1 [лицо / группа лиц] СУБЪЕКТ (2) направления движения "к + N3" (44%) [локализация/ лицо] направление движения? "в + N4" (27%) [локализация] ОБЪЕКТ1 "в стороону + N4" (4%)… (к дивану, к другу, к спуску, к нему…; в комнату, в деревню, в угол гостиной) Валентная рамка RussNet


Слайд 8

{двигаться} <Subj > {направиться} <Subj, Obj1> {подойти} <Subj, Obj1> {перейти} <Subj, Obj1, Obj2 > семантические деревья RussNet обладают конечным набором семантических ролей типы объектов в дереве устойчивы Семантические роли валентных позиций в RussNet


Слайд 9

_V (SYN) <ROLE, SEM>… SYN морфо-синтаксичская форма слова, имеющего пассивную валентность в лицо "в + N4" ROLE семантическая роль в пропозиции; SEM семантический тип слов, присоединяющих валентность {сказать}, {знать}, {плюнуть} Пассивная валентная рамка RussNet


Слайд 10

Пассивная валентная рамка RussNet (2)


Слайд 11

Принстонский WordNet give up Sense 1 forfeit, give up, throw overboard, render, waive, forgo => abandon -- ("We abandoned the old car in the empty parking lot") Sense 2 drop out, give up, throw in, throw in the towel, quit, leave, admit defeat, chuck up the sponge -- (give up in the face of defeat of lacking hope) Sense 3 spare, give up, part with, dispense with => give -- (transfer possession of something concrete or abstract to somebody; "I gave her my money"; "can you give me lessons?") Словосочетания в wordnet-словарях


Слайд 12

Устойчивые словосочетания (1) Контактность существительных Воспроизводимость


Слайд 13

Устойчивые словосочетания (2) Контактность может нарушаться при перечислении.


Слайд 14

Устойчивые словосочетания (3) Глагольные словосочетания Контактность нарушается наречиями, частицами и проч.


Слайд 15

Устойчивые словосочетания (4) Глагольные словосочетания В менее очевидных случаях контактность нарушается другими валентными позициями.


Слайд 16

Устойчивые словосочетания (5) Статистическая оценка «устойчивости» сочетания набрать воздух(а) в диапазоне ±5 слов. Коэффициент «неслучайности» MI показывает, насколько «информативно» данное сочетание слов. Доля контекстов с данным значением 3%, общее число вхождений глагола 664 (31 ipm)


Слайд 17

Устойчивые словосочетания (6) Статистическая оценка сочетаний вдохнуть воздух в диапазоне ±5 слов (частотность в корпусе – 5 ipm, 101 вхождение)


Слайд 18

Контактная информация RussNet http://www.phil.pu.ru/depts/12/RN/


×

HTML:





Ссылка: