'

АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET

Понравилась презентация – покажи это...





Слайд 0

АВТОМАТИЗАЦИЯ ПОСТРОЕНИЯ АНГЛО-РУССКОГО WORDNET А.М. Сухоногов Петербургский Университет путей сообщения, кафедра ИВС ASukhonogov@rambler.ru; С.А. Яблонский Петербургский Университет путей сообщения, кафедра ИВС ЗАО “Руссикон” serge_yablonsky@hotmail.com; info@russicon.ru


Слайд 1

Организация WordNet WordNet – лексико-семантическая база данных, включающая: основную лексику языка (существительные, глаголы, прилагательные и наречия - более 100 тыс. словарных статей), организованную в виде синсетов. Synset (синсет) – основная структура, представляющая словарную статью в WordNet. Синсет представляет множество лексем с одинаковым значением. таксономию отношений между синсетами (например, гипонимия, меронимия) и между лексемами (например, антонимия). определение семантических классов – TopOntology


Слайд 2

Princeton WordNet 2.0.


Слайд 3

Почему WordNet ? Наиболее полно отражает лексику английского и др. языков. Число входов (синсетов/слов) > 180 000. Постоянное развитие PWN – версия 2.1. ”Параллельный” перевод на >17 языков. (EuroWordNet, Balkanet, Корейский и др.) Встроенные морфологические анализаторы, “привязанные” к национальным языкам. 5. PWN как межъязыковой индекс. 6. Разработка онтологий на базе WordNet. SUMO mappings to WordNet 2.0. 7. Разрабатывается RDF/OWL форматы WN для Semantic Web.


Слайд 4

Проекты WordNet Английский Датский Испанский Итальянский Немецкий Французский Чешский Эстонский Греческий Болгарский Турецкий Румынский Сербский Индийский Китайский Японский GWA – Global WordNet Association (2001 г.)


Слайд 5

Межъязыковой индекс ILI – Inter-lingual-index


Слайд 6

WordNet русского языка Проект филологического факультета, кафедра компьютерной лингвистики СПбГУ http://www.phil.pu.ru/depts/12/RN/bibliography_ru.shtml http://www.kiberry.ru:8085/index.jsp Проект “УИС Россия” http://www.cir.ru/ 3. Проект “Russian WordNet”


Слайд 7

Проект “Russian WordNet” 164 099 лемм и их парадигмы, более 3,5 млн. словоформ 202 866 синсетов (значений)


Слайд 8

Основные этапы «Russian WordNet»


Слайд 9

Особенности перевода WordNet В общем случае отображение L1->L2 невыполнимо, поскольку:     - для некоторого слова WL1 может не существовать соответствующего слова WL2, т.е. перевод может отсутствовать, - число значений lemmat (WL1) может быть не равно числу значений lemmat (WL2) и/или значения могут не совпадать, - некоторое слово WL1 может переводиться не одним словом WL2, а некоторым словосочетанием, не являющимся в общем случае фразеологизмом или устойчивым словосочетанием в языке L2.


Слайд 10

Google сегодня Поисковый индекс, включающий порядка ~10 миллиардов документов, в т.ч. на русском языке (сколько?) Свободно распространяемый (с ограничениями) Java API для доступа к поисковому индексу


Слайд 11

Яndex сегодня В поиске Яндекса сегодня: - уникальных серверов: 2 100 646, - уникальных документов: 727 070 847, - объем проиндексированной информации: 20 228 ГБ. Свободно распространяемый XML API для доступа к поисковому индексу


Слайд 12

Определение «семантического расстояния» между словами Пусть x – слово, w – страница (документ), проиндексированный поисковой машиной Google. вероятность появления слова x в коллекции из М документов вероятность совместного появления слова x и y в одном и том же документе M=8 058 044 651 (~8 млрд.) [Google]


Слайд 13

Определение «семантического расстояния» между словами Условные вероятности появления слов в коллекции документов. Эти вероятности характеризуют зависимость, существующую между словами x и y, позволяют определять ассоциативные связи между словами.


Слайд 14

Определение «семантического расстояния» между словами Normalized Google distance (NGD): Функция не определена для f(x)=f(y)=0 NGD=?, при f(x,y)=0, f(x)>0, f(y)>0 NGD>0 в других случаях. Значения NGD(x,y) лежат в диапазоне от 0 до ?, D(x,x)=0 для любого х. Функция симметрична, NGD(x,y)=NGD(y,x) * Paul Vitanyi, Rudi Cilibrasi “Normalised Google Distance”


Слайд 15

Наши ресурсы New Oxford Dictionary (SGML-формат, по лицензии на использование в исследовательских целях) Более 180 тыс. слов, 290 тыс. примеров употребления Доступ к ресурсам Яндекса, грант #103003 “Построения межъязыкового индекса  для русской и английской версий WordNet”


Слайд 16

Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап Построение частотных словарей для: 153 235 лемм Princeton WordNet (PWN) 164 099 лемм Russian WordNet (RWN) ~2,5 млн. сочетаний (пар) лемм PWN ~2,5 млн. сочетаний (пар) лемм RWN Ручной перевод и определение соответствия синсетов PWN и RWN для наиболее общих, философских значений. Синсеты – корневые элементы деревьев гипонимии (род/вид) и меронимии (часть/целое). Например: {entity}, {psychological feature}, {abstraction}, {state}, {event}, {human activity, act, human action}, {grouping, group}, {possession}, {phenomenon}


Слайд 17

Автоматизированное построение ILI-индекса. Основные этапы. Подготовительный этап


Слайд 18

Автоматизированное построение ILI-индекса. Основные этапы. Построение ILI-индекса Обход дерева гипонимии (затем – меронимии) PWN «в ширину» начиная от корня к листьям. Для каждого синсета PWN - подбор эквивалентного или наиболее близкого синсета/значения в RWN, формирование записи ILI-индекса.


Слайд 19

Автоматизированное построение ILI-индекса. Перевод синсетов PWN. Вариант 1 Синсет PWN состоит более чем из 1 слова, (для 2х слов существуют переводы в англо-русском словаре). Переводы слов PWN присутствуют в словнике RWN. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы.


Слайд 20

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 1


Слайд 21

Демонстрация алгоритма построения ILI с использованием Google API


Слайд 22

Демонстрация алгоритма построения ILI с использованием Google API


Слайд 23

Демонстрация алгоритма построения ILI с использованием Google API [carriage, equipage, rig] => [экипаж, карета, упряжка]


Слайд 24

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Синсет PWN состоит из 1 леммы или англо-русский словарь содержит перевод только одной леммы. work love и др. Англо-русский словарь содержит более 20 вариантов перевода work !!! [work] => [???]


Слайд 25

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2


Слайд 26

Определяется гипероним синсета PWN. Например, для синсета [work] - activity directed toward making or doing something; "she checked several points needing further work" гиперонимом (родительский узел в дереве род/вид) является синсет: [activity] - any specific activity; "they avoided all recreational activity« Для синсета [activity] на предыдущем шаге уже определен соответствующий синсет RWN – [дело, деятельность, занятие] Для всех переводов [work] вычисляется NGD=NGD(x,y) со словами синсета-гиперонима RWN (дело, деятельность, занятие) Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2


Слайд 27

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 Для [work] в англо-русском словаре определены переводы: work – {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20 вариантов)


Слайд 28

Демонстрация алгоритма построения ILI с использованием Google API. Вариант 2 [work] => {служба, работа}, {труд} Из всех вариантов перевода [work] - {служба, работа}, {произведение}, {изделие}, {исследование}, {труд}, {рабочий} и т.д. (более 20) выбирается:


Слайд 29

Статистика Russian WordNet Лемм: Синсетов:


Слайд 30

Спасибо за внимание


×

HTML:





Ссылка: