'

Тезаурус РуТез: структура и приложения

Понравилась презентация – покажи это...





Слайд 0

Тезаурус РуТез: структура и приложения Лукашевич Н.В. ведущий научный сотрудник НИВЦ МГУ louk_nat @mail.ru


Слайд 1

Знания о мире в обработке текстов на естественном языке В настоящее время: широкие предметные области для приложений автоматической обработки текстов В различных приложениях полезно использовать знания о мире Знания о мире сложным образом связаны с лексическими и терминологическими знаниями Как построить понятийную модель широкой предметной области для приложений автоматической обработки текстов?


Слайд 2

Лингвистические ресурсы для автоматической обработки текстов Наш опыт: развитие ресурсов для задач информационного поиска с 1994 года Большой объем: тысячи слов и словосочетаний Модель описания знаний о языке и мире должна быть: «легкая», полезная в широком круге приложений тестирование ресурса в приложениях Созданные ресурсы: Тезаурус РуТез, Общественно-политический тезаурус Онтология по естественным наукам и технологиями (ОЕНТ) и др.


Слайд 3

Коллектив 1994 – н/в АНО Центр информационных исследований (АНО ЦИИ) 1994 – 1997 Институт США и Канады РАН 1997 – н/в Научно-исследовательский вычислительный центр МГУ им.М.В.Ломоносова Университетская информационная система РОССИЯ (УИС РОССИЯ): три миллиона документов (нормативные акты, пресса, экономическая статистика)


Слайд 4

Участие в организации научных конференций «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL) -- ПК Российский семинар по оценке методов информационного поиска (РОМИП) -- ОК Международная конференция «Компьютерная лингвистика и интеллектуальные технологии» (ДИАЛОГ) -- ОК Cross Language Evаluation Forum (CLEF)(2003-2009) -- НК European Conference on Research and Advanced Technology for Digital Libraries (ECDL) – ПК Text-Speech-Dialog conference (TSD) - ПК SIGIR (2008) – ПК и др.


Слайд 5

Проекты Рамблер (2007– н/в) Аппарат Государственной Думы ФС РФ (1999 -- н/в) НИИ Восход для ЦИК РФ (1997 -- н/в) НПП Гарант-Сервис (2002 – н/в) ИК «Кодекс» для УОПИ ФСО РФ (2007 – 2008) в/ч 43753 (2000 – 2007) Банк России (2006 – н/в) Счетная палата (2003) Министерство образования; ГУМЦ «Базис» (2003, 04) «Аплана» (2006, 2008) ИППИ РАН для Управления спецпрограмм (1996) «Гранит-Центр» (2006), НИЦ «Квант» (2003), НТЦ «Атлас» (2001)


Слайд 6

Приложения автоматической обработки текстов Информационный поиск Корпоративные или предметно-ориентированные системы Автоматическое расширение запроса Визуализация выдачи Автоматическая рубрикация текстов Несколько десятков рубрикаторов Автоматическая кластеризация текстов Автоматическое реферирование текстов Одного документа, многих документов, составление аналитических отчетов Системы мониторинга


Слайд 7

План презентации Тезаурус РуТез Общая структура Единицы Тезауруса Понятия тезауруса Текстовые входы (синонимы, многозначность, словосочетания) Отношения Тезауруса Принципы установления Используемые типы отношений Приложения автоматической обработки текстов


Слайд 8

Тезаурус РуТез – иерархическая сеть понятий Понятие: Имя понятия Набор текстовых выражений Отношения между понятиями 53 тыс. понятий, 156 тыс. текстовых выражений, 210 тыс. отношений (более 2 млн. с иерархией) Переведен на английский язык: 130 тысяч слов и выражений


Слайд 9


Слайд 10

Общая структура тезауруса РуТез Две составные части Общий лексикон Абстрактные действия, процессы Оценки, эмоции и т.д. Общественно-политический тезаурус Общественно-политическая область – жизнь современного общества Состав: экономика, финансы, оборона, законодательство, научная политика, спорт, искусство, военные конфликты и др


Слайд 11

Тезаурус по общественно-политической жизни Структурированная энциклопедия жизни современного общества 36 тысяч понятий 100 тысяч терминов 140 тысяч прямых отношений (1,1 млн. наследуемых) предметная область – проблемы современного общества типы обрабатываемых текстов – официальные документы, международные договора, законы, газетные статьи, новостные сообщения Состав: термины и тематическая лексика


Слайд 12

Общая лексика Специальная лексика Специальная лексика Тезаурус РуТез и специальная лексика Промежуточная зона Культурное наследие Онтология по естественным наукам и технологиям


Слайд 13

Специальные области vs. общественно-политическая область


Слайд 14

Тезаурус РуТез: учет трех традиций Информационно-поисковые тезаурусы Название понятия Включение многословных единиц Небольшой набор отношений Ресурсы типа WordNet Подробное включение отдельных лексических единиц Аккуратное описание многозначности Формальные онтологии Отличимость понятий Формальные свойства отношений


Слайд 15

Единицы тезауруса РуТез


Слайд 16

Понятия тезауруса РуТез Понятие происходит от значения отдельных слов или словосочетаний Проблемы ввода понятий Квазисинонимы Близкие значения многозначных слов Понятие должно быть отличимо от близких понятий Однозначно понимаемое имя Набор текстовых входов Набор отношений Название понятия Единое представление для: нетематической лексики, тематической лексики, терминологии


Слайд 17

Имя понятия Однозначное слово: КАБЕЛЬ Однозначное словосочетание, являющееся одним из текстовых входов понятия: ГОНОЧНЫЙ БОЛИД, КОСМИЧЕСКИЙ БОЛИД Неоднозначное словосочетание с пометой: КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД) Пара синонимов – текстовых входов понятия через запятую: ИРРАЦИОНАЛЬНЫЙ, ЛОГИЧЕСКИ НЕОБЪЯСНИМЫЙ Имя должно быть однозначно, понятно, отражать особенности понятия.


Слайд 18


Слайд 19

Многословные языковые выражения Словосочетаний может встретиться очень много Мы вносим словосочетание, если это необходимо для отражения новой информации синонимы: приватизировать – передать в частные руки; многозначное становится однозначным: положение дел, состояние дел дополнительная структуризация сети сельский дом: вилла, дача; автомобиль автомобильные гонки автогонщик (пилот)


Слайд 20

Синонимы в тезаурусе РуТез Синонимы – языковые выражения, являющиеся текстовыми входами к одному и тому же понятию тезауруса Разные части речи – дериваты могут быть текстовыми входами одного и того же понятия Назовем совокупность текстовых входов к одному и тому же понятию – онтологическими синонимами Специальные усилия на поиск многословных вариантов – снижение многозначности Формирование обширных синонимических рядов – стабильность распознавания понятия в текста


Слайд 21

Пример синонимического ряда ЗАЩИТА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДНОЙ СРЕДЫ ЗАЩИТА ПРИРОДЫ ОХРАНА ОКРУЖАЮЩЕЙ ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДНОЙ СРЕДЫ ОХРАНА ПРИРОДЫ ОХРАНЯТЬ ПРИРОДУ ПРИРОДОЗАЩИТА ПРИРОДОЗАЩИТНЫЙ ПРИРОДООХРАНА ПРИРОДООХРАНИТЕЛЬНЫЙ ПРИРОДООХРАННЫЙ


Слайд 22

Близкие значения разных слов: монумент и памятник Словарь синонимов (НОСС) – 5 различий: 1) в память о конкретном человеке обычно ставится памятник, о группе людей – и памятник, и монумент, о событии – монумент; идеи воплощаются в монументах; 2) у монументов есть способность увековечивать подвиг живых людей 3) по форме сооружения памятник часто представляет собой изображение увековечиваемого объекта, 4) монумент обычно больше по размерам и т.п.. Достаточны ли эти различия, чтобы ставить в соответствие этим словам отдельные понятия?


Слайд 23

Монумент и памятник - 2 Проблема разделения: каковы отношения между собой каковы отношения с другими близкими понятиями онтологии Проверка примеров показывает, что нет разделяющего свойства для сущностей монумент и памятник: Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала… Авторы словаря: различия нейтрализуются при повторной, сокращенной номинации того же сооружения Монумент, памятник –> одно понятие онтологии


Слайд 24

Близкие значения разных слов: водитель и шофер Синонимы во многих словарях синонимов НОСС: шофер управляет только автомобилем или автобусом, водитель и другими транспортными средствами Следовательно, вагоновожатый – водитель, но не шофер (в любом контексте) Должно быть два понятия в онтологии: ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА (водитель) ВОДИТЕЛЬ АВТОМОБИЛЯ (водитель, шофер) Дополнение: шофер – обычно профессиональный работник!


Слайд 25

Водитель транспортного средства (водитель) Транспортный работник Судоводитель Вагоновожатый (водитель трамвая) Водитель автомобиля (водитель) Профессиональный водитель (шофер) Таксист Личный водитель (личный шофер)


Слайд 26

Многозначность в тезаурусе М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК Нужно выбрать значение А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): Львов – ЛЬВОВ (ГОРОД) Нужно подтвердить/отвергнуть употребление значения Число многозначных единиц в Тезаурусе РуТез - 16 тысяч многозначных слов и выражений


Слайд 27


Слайд 28


Слайд 29

Пополнение тезауруса РуТез Новые реалии и пропущенная конкретика (пополнение Общ.-политического тезауруса): Автодом, дача на колесах, инсоляция, национал-сепаратизм, тайский бокс, автолестница, единый госэкзамен, пожарный спринклер Пропущенные отдельные слова общей лексики Скривить, петься, минование, миролюбивость, неравнодушие, небезразличие, зыбкий Словосочетания, уточняющие значения слов Пойти под откос, остаться в стороне, замыть пятно, не обидеть способностями, тяжело даваться


Слайд 30

Отношения в тезаурусе РуТез


Слайд 31

Подходы к представлению отношений Информационно-поисковые тезаурусы, ворднеты: небольшие наборы отношений vs. Наборы семантических отношений, произвольные набор предикатов Но: Большие затраты труда для широкой ПО Непонятно, какой набор оптимален Контекстная зависимость


Слайд 32

Надежные отношения Цель: необходимо использовать отношения, не имея возможности подробно проанализировать контекст упоминания понятия в тексте Возможности систем автоматической обработки текста для анализа релевантности контекста ограничены Необходимо найти и описать для понятия те отношения, которые выполняются для понятия практически всегда: для всех или большинства примеров понятия в течение всего (или почти всего) времени существования примера Нужно описывать надежные отношения


Слайд 33

Отношения в тезаурусе РуТез отношение ВЫШЕ-НИЖЕ – таксономическое отношение Должно быть действительно для всех примеров понятий и все время их существования => Транзитивность, наследование отношение ЧАСТЬ-ЦЕЛОЕ – традиционные части, участники ситуации, свойства НО!! Должно быть действительно для всех примеров понятий-частей и все время их существования => Транзитивность внешняя онтологическая зависимость - несимметричная ассоциация – асц2 Симметричная ассоциация – для очень похожих понятий


Слайд 34

Отношение ЦЕЛОЕ-ЧАСТЬ Отношение ЦЕЛОЕ-ЧАСТЬ обозначает включенность по месту, времени, ситуации, сфере деятельности Х – это часть Y Изменение Х (или совокупности Х) влечет изменение Y Отношение действует на протяжении большей части нормального существования примера X или это основная альтернатива Для нас: колесо – не есть ЧАСТЬ автомобиля: автомобильное колесо – ЧАСТЬ автомобиля инвестор – это ЧАСТЬ для инвестирование


Слайд 35

Примеры отношения часть-целое Автопилот - летательный аппарат Горбушка - хлеб Член партии - политическая партия Балкон зала - зрительный зал Грузоподъемность – транспортное средство Калорийность - пища Водоизмещение- судно Инвестор - инвестирование Очиститель - очистка Дубильщик - дубление


Слайд 36

Транзитивность отношения ЧАСТЬ-ЦЕЛОЕ Обвиняемый – обвинение в суде – судебный процесс – судопроизводство – судебная система Аптекарь – аптека – лекарственное обеспечение – медицинская помощь – медицина – здравоохранение


Слайд 37

Отношение внешней зависимости (dependence relation) Концептуальная зависимость: - понятие Х не возникло бы без существования понятия Y Внешняя зависимость: - понятие X зависит от понятия Y, - экземпляры Y не являются всегда частями или свойствами экземпляров X Примеры: понятие гараж зависит от понятия автомобиль Понятие автостроение зависит от понятия автомобиль Обозначаем направленной ассоциацией: АСЦ1, АСЦ2


Слайд 38

Пример отношения Дерево - Лес Многие ресурсы указывают: Дерево – часть Леса Но: дерево не всегда в лесу, а лес всегда состоит из деревьев Понятие ЛЕС – зависит от понятия ДЕРЕВО


Слайд 39

Отношения концептуальной зависимости и семантические имена отношений ГАРАЖ зависит_от  АВТОМОБИЛЬ (назначение?) РЕКА зависит_от ПРЕСНАЯ ВОДА (часть?) ГИДРО- ЭЛЕКТРОСТАНЦИЯ зависит_от РЕКА (источник?) ЛЕС зависит_от ДЕРЕВО (часть?) ЛЕСНИЧЕСТВО зависит_от ЛЕС (место?) КИПЕНИЕ зависит_от ЖИДКОСТЬ (пациенс?) Семантические названия отношениям концептуальной зависимости придумать непросто, и они были бы достаточно разнообразны


Слайд 40

=ЛЕС= : части БУРЕЛОМ (ВЕТРОВАЛ; БУРЕЛОМНЫЙ) ГРУППА ЛЕСА ЛЕСНАЯ КУЛЬТУРА (ЛЕСНАЯ ПОРОДА; ЛЕСОХОЗЯЙСТВЕННАЯ КУЛЬТУРА) ЛЕСНАЯ ПОЧВА (ЛЕСНАЯ ПОДСТИЛКА) ЛЕСНЫЕ ЗЕМЛИ (ЛЕСНЫЕ УГОДЬЯ; ЛЕСНАЯ ТЕРРИТОРИЯ; ЛЕСОРАСТИТЕЛЬНЫЙ РАЙОН; ЛЕСОРАСТИТЕЛЬНАЯ ЗОНА; ЛЕСОПОКРЫТЫЕ ПЛОЩАДИ; ЛЕСОПОКРЫТЫЕ ЗЕМЛИ; ЗЕМЛИ ЛЕСНОГО ФОНДА; ЗЕМЛИ, ПОКРЫТЫЕ ЛЕСОМ; ПОКРЫТЫЕ ЛЕСОМ ПЛОЩАДИ) ОПУШКА (ОПУШЕЧНЫЙ) ПОДЛЕСОК (ПОДЛЕСОЧНЫЙ) ПОДРОСТ (МОЛОДНЯК) ПРОДУКТИВНОСТЬ ЛЕСА (БОНИТЕТ ЛЕСА) СУХОСТОЙ (СУХОСТОЙНЫЙ)


Слайд 41

=ЛЕС= : зависимые понятия ЛЕСНОЙ ПОЖАР (ЛЕСОПОЖАРНЫЙ; ПОЖАР В ЛЕСУ) ЛЕСНАЯ НАУКА (НАУКА О ЛЕСЕ) ЛЕСОВЛАДЕНИЕ ЛЕСОПОЛЬЗОВАНИЕ (ЛЕСНОЕ ПОЛЬЗОВАНИЕ; ПОЛЬЗОВАНИЕ УЧАСТКАМИ ЛЕСНОГО ФОНДА)


Слайд 42

Автоматическая обработка текстов на основе тезауруса


Слайд 43

Обработка текстов с использованием тезауруса Морфологический анализ Индекс лемм Терминологический анализ Сопоставление с тезаурусом Разрешение многозначности (Общественно-политический тезаурус точность > 75% - грант Яндекса 2005) Тематический анализ Выделение основной темы текста Учет близких по смыслу понятий для вычисления веса понятия Концептуальный индекс с весами


Слайд 44

Лексическая связность: пример О порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы Во исполнение Закона Российской Федерации "О статусе военнослужащих" и в целях обеспечения прав на жилище военнослужащих и граждан, уволенных с военной службы, Правительство Российской Федерации п о с т а н о в л я е т : 1. Утвердить прилагаемое Положение о порядке оказания безвозмездной финансовой помощи на строительство (покупку) жилья и выплаты денежной компенсации за наем (поднаем) жилых помещений военнослужащим и гражданам, уволенным с военной службы. 2. Министерству обороны Российской Федерации и иным федеральным органам исполнительной власти, в которых предусмотрена военная служба: в месячный срок разработать и утвердить формы и перечень документов, необходимых для принятия решения об оказании военнослужащим безвозмездной финансовой помощи на строительство (покупку) жилья и о выплате денежной компенсации за наем (поднаем)жилых помещений;


Слайд 45

Тезаурусные отношения для документа


Слайд 46

Вес понятия в тексте: тематическое представления Главные темы Локальные темы


Слайд 47

Тематическая аннотация (Постановление Правительства РФ от 26 июня 1995 г. N 604) ----+----------------------------------------------------------------------+ | ВОЕННАЯ СЛУЖБА; ВОЕННОСЛУЖАЩИЙ; ВОИНСКАЯ СЛУЖБА ПО КОНТРАКТУ | ****| | | | | +------------------------------------------------------------------+ | | ЖИЛОЕ ПОМЕЩЕНИЕ; НАЕМ ЖИЛОГО ПОМЕЩЕНИЯ; ОБЕСПЕЧЕННОСТЬ ЖИЛЬЕМ; | ****| X | КВАРТИРА; ЖИЛИЩНАЯ НОРМА; КОМНАТА (ПОМЕЩЕНИЕ); ЗДАНИЕ; | | | ЖИЛОЕ ЗДАНИЕ; ЖИЛАЯ ПЛОЩАДЬ | | | +--------------------------------------------------------------+ | | | ФИНАНСОВАЯ ПОМОЩЬ; | ****| z | z | | | | | +----------------------------------------------------------+ | | | | ГРАЖДАНИН | ****| X | z | . | | | | | | +------------------------------------------------------+ | | | | | УВОЛЬНЕНИЕ; | ****| X | z | . | X | | | | | | | +--------------------------------------------------+ | | | | | | СТРОИТЕЛЬСТВО; ЖИЛИЩНОЕ СТРОИТЕЛЬСТВО; | ****| . | X | z | . | . | ЖИЛИЩНО-СТРОИТЕЛЬНЫЙ КООПЕРАТИВ; | | | | | | | +----------------------------------------------+ | | | | | | | ФЕДЕРАЛЬНЫЙ ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; | ****| X | . | z | . | . | . | ОРГАН ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ; ПРАВИТЕЛЬСТВО; | | | | | | | | ПРАВИТЕЛЬСТВО РОССИИ; МИНИСТЕРСТВО ОБОРОНЫ; | | | | | | | | +------------------------------------------+ | | | | | | | | ПОКУПКА; ДЕНЬГИ; ПЛАТИТЬ; | ****| z | X | z | . | . | z | z | |


Слайд 48

Тезаурус РуТез: основные приложения Информационный поиск: Поисковый инструмент УИС Россия (www.cir.ru) расширение запросов вопросно-ответные системы Автоматическая рубрикация текстов Более 20 рубрикаторов Автоматическое аннотирование Аннотирование одного документа, Обзорный реферат Обработка потоков новостей, информационный мониторинг Кластеризация документов


Слайд 49

Представление смысла рубрики опорными понятиями


Слайд 50

Расширенное представление рубрики понятиями тезауруса


Слайд 51

Кластеризация новостей


Слайд 52

Классификация документов и кластеров


Слайд 53

Обзорный (сводный) реферат (Multi-document summarization)


Слайд 54

Преимущества от онтологий и тезаурусов в разных приложениях


Слайд 55

Заключение В течение более чем 15 лет мы разрабатываем тезаурусы и исследуем технологии их применения для решения различных задач автоматической обработки текстов и информационного поиска Наши выводы: Структура тезауруса, онтологии должна быть специально адаптирована к задачам автоматической обработки текстов Тезаурусные технологии не должны противопоставляться современным технологиям пословной обработки текстов, а органично учитывать последние достижения в этой сфере При учете таких условий применение тезаурусов дает значимое улучшение качества решения задачи по сравнению с лучшими пословными методами


Слайд 56


×

HTML:





Ссылка: