'

Извлечение информации

Понравилась презентация – покажи это...





Слайд 0

Извлечение информации Лидия Михайловна Пивоварова Системы понимания текста


Слайд 1

Введение Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД) Information Retrieval Text Understanding Information Extraction


Слайд 2

Мотивация Пополнение баз данных (и баз знаний) Получение входных данных для работы других систем Привлечение внимания эксперта к значимым аспектам информации


Слайд 3

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Слайд 4

– выработка общих подходов к методологии и способам оценки систем извлечения информации из текста. MUC (Message Understanding Conference), 1987-1997


Слайд 5

Named Entity recognition - выделение именованных сущностей Coreference resolution - разрешение кореференции Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR Template Relation construction – выявление связей между отдельными сущностями Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR Дорожки MUC


Слайд 6

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Named Entity recognition: доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед ракета, вторник… Сoreference resolution: доктор Биг Хед ? Хед это > ракета Template Element construction:


Слайд 7

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед. Template Relation construction: Scenario Template production:


Слайд 8

Recall = Ncorrect /Nall-correct Precision = Ncorrect /(Ncorrect + Nincorrect ) F-mera = (?2+1 )*r*p/(?2 * r+p) Named Entity recognition F<94% Coreference resolution F<62% Template Element construction F<87% Template Relation construction F<76% Scenario Template production F<51% Оценка


Слайд 9

Дальнейшее развитие ACE (Automatic Content Extraction) 1999 – 2008 По сравнению с MUC: более детальная таксономия сущностей для всех систем обязательна интерпретация метонимических связей требуется семантический анализ обрабатываемого текста Text Analysis Conference (TAC) – настоящее время


Слайд 10

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Слайд 11

Основные подходы Задача всегда предельно конкретна: определенный тип текста искомая информация представлена в виде набора полей для заполнения Текст, включающий такую информацию, предельно шаблонный Поиск осуществляется при помощи набора образцов


Слайд 12

Образцы Состав образцов: Лексика, семантика Частичный синтаксис Близость, взаимное расположение частей Формат: Зависит от формата представления текста в системе Часто используются специальные языки (грамматики) Построение образцов: Вручную Машинное обучение (bootstrapping) Обобщение образцов с привлечением словарных и/или онтологических ресурсов


Слайд 13

Машинное обучение Pro: не требует большого количества ручного труда по написанию правил система более гибкая, ее легко перенастроить Contra: требуется большой обучающий корпус, правильно и полностью размеченный сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»


Слайд 14

Правила Pro: Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов Contra Большая ручная работа, требующая специальной квалификации Трудно перенастраивать Возможны (и даже предпочтительны) гибридные подходы


Слайд 15

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Анафора и кореференция Наш опыт


Слайд 16

Извлечение именованных сущностей Named Entity: Стандартные примеры: персоналии, географические названия, организации… Для биологических текстов: названия генов, белков, ферментов… Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование… Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями


Слайд 17

Основные подходы Основанный на знаниях: список имен собственных регулярные выражения, описывающие именованные сущности образцы, описывающие контекст Машинное обучение обучающий корпус определение характерных свойств поиск по этим свойствам


Слайд 18

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт


Слайд 19

Извлечение отношений между понятиями Отношения: Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ… Специфические для предметной области – СТРАНА-СТОЛИЦА, БЕЛОК-ФЕРМЕНТ… В тексте определяются: Свойствами именованных сущностей Лексическими свойствами контекста Синтаксическими свойствами контекста Извлечение: Правила (образцы) vs. машинное обучение Поиск: начиная с именованных сущностей vs. Начиная с отношений


Слайд 20

Анафора и кореференция Извлечение информации в масштабах текста Кореференция: возможно использование экстралингвистической информации Анафора: невозможно использование экстралингвистической информации Вокруг местоимения отыскиваются существительные-кандидаты Проверяется согласование Статистики и эвристики Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество


Слайд 21

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей


Слайд 22

Система фактографического поиска в газетных текстах Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю.  Методы извлечения фактографической информации из текстов. Опыт разработки.  // Megaling’2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007. Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197


Слайд 23

Система Factors Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/


Слайд 24

Постановка задачи Задача: извлечение из текстов СМИ информации общественно-политической тематики. Факторы - различные характеристики общественно-политической ситуации(около 100). Значения факторов: Количественные - число пенсионеров; средний уровень заработной платы Оценочные - социальная напряженность; военные угрозы


Слайд 25

Система Factors: - интеллектуальная среда для поддержки работы эксперта-аналитика с текстами. Режимы работы: Автоматический Диалоговый ТЕКСТЫ FACTORS


Слайд 26

Функциональность: Последовательное наращивание распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой. Легкость и простота редактирования и пополнения; визуальное представление информации. Функциональная расширяемость и переносимость на другие проблемные и предметные области.


Слайд 27

Образцы Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей) Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное») Смешанные


Слайд 28

Образцы Фактор + значение В основном для оценочных факторов социальная напряженность > стихийный митинг Только фактор Для количественных факторов: уровень инфляции > инфляция составила 4%


Слайд 29

Поиск образцов в тексте население ... право на труд ... ограничение 1) Поиск опорного элемента население ... право на труд ... ограничение 2) Поиск в окрестности других элементов население ... право на труд ... ограничение Для концептов образца – учет синонимов ограничение = ограниченный, ограничить, ущемление Параметры поиска предполагают отладку и настройку


Слайд 30

Только фактор: поиск значения Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?» Уровень зарплаты > заработная плата Транспортные издержки > траты Число пенсионеров > пенсионеры Онтология: собственный признак - единица измерения заработная плата - денежная единица пенсионеры - без единиц


Слайд 31

Общий алгоритм поиска 1) Поиск образца 2) Определение собственного признака и единиц измерения 3) Поиск числа с единицей измерения 4) Проверка соответствия единиц измерения 5) Если число не найдено – поиск слов большой, маленький, растет, падает и их синонимов 6) Определение достоверности


Слайд 32

Содержание Message Understanding Conference Извлечение информации: основные подходы Named Entity Recognition Извлечение отношений Наш опыт: Система фактографического поиска в газетных текстах Система автоматического пополнения онтологии на основе энциклопедических и толковых словарей


Слайд 33

V. Bocharov, L. Pivovarova, V. Rubashkin, B. Chuprin Ontological Parsing of Encyclopedia Information. In Computational Linguistics and Intelligent Text Processing 11th International Conference, CICLing 2010, Iasi, Romania, March 21-27, 2010. Proceedings. Lecture Notes in Computer Science. - Springer Berlin / Heidelberg – 2010 – pp. 564 – 579 Бочаров В.В., Пивоварова Л.М., Рубашкин В.Ш. Логико-лингвистический анализ текстов определений в энциклопедических и толковых словарях // Сучасні технології комп’ютерної лексикографії (на матеріалах міжнародної конференції «MegaLing’2009») : Зб. наук. пр. / НАН України, Укр. мовно-інформ. фонд [та ін.]; редкол.: Ю. Д. Апресян [та ін.].— К. : Довіра, 2009 Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Опыт автоматизированного пополнения онтологий с использованием машиночитаемых словарей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. Система автоматического пополнения онтологии на основе


Слайд 34

Пополнение онтологий Пополнение онтологий – бутылочное горлышко инженерии знаний Ontology Learning – автоматическое пополнение онтологии на основе естественно-языковых текстов


Слайд 35

Источник Российский энциклопедический словарь - Гл. ред.: А. М. Прохоров — М.: Большая Российская энциклопедия, 2001 исключены персоналии, географические названия и другие имена собственные 26375 словарных статей, 21782 различных терминов


Слайд 36

Гипотеза В большинстве случаев родовой по отношению к определяемому термин представлен первым по порядку существительным (именной группой) в именительном падеже. АГРАФ - нарядная заколка для волос, с помощью которой крепили в прическах перья, цветы, искусственные локоны и т. д.


Слайд 37

Примеры ПЕРИСТИЛЬ - прямоугольный двор, сад, площадь, окруженные с 4 сторон крытой колоннадой. ЯТАГАН - рубяще-колющее оружие (среднее между саблей и кинжалом) у народов Ближнего и Среднего Востока (известно с 16 в.).


Слайд 38

Общий алгоритм анализа


Слайд 39

сокращения (разворачиваются в полные слова, если это возможно) пометы (удаляются) текст в скобках (удаляется) Лексикографическая обработка


Слайд 40

АБРЕКИ - В прошлом у народов Сев. Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АБРЕКИ - В прошлом у народов Северного Кавказа изгнанники из рода, ведшие скитальческую или разбойничью жизнь АКСЕЛЕРАЦИЯ - (В антропологии) ускорение роста и полового созревания детей и подростков АКСЕЛЕРАЦИЯ - ускорение роста и полового созревания детей и подростков Лексикографическая обработка


Слайд 41

Используются компоненты АОТ Упрощённые правила (Tomita-формализм) Строится дерево зависимостей Синтаксический анализ


Слайд 42

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА [ANP] -> [ADJ] [NP root] : $0.grm := case_number_gender($1.grm, $2.type_grm, $2.grm); ГЕНИТИВНАЯ ГРУППА [GP] -> [NP root] [NP grm="рд"]; ПРЕДЛОЖНАЯ ГРУППА [PP] -> [PREP root] [NP]; ИМЕННАЯ ГРУППА [NP] -> [NOUN]; [NP] -> [NP root] [PP] ; [NP] -> [PP] | [GP] | [ANP]; Упрощенные правила


Слайд 43

ПРИЛАГАТЕЛЬНОЕ + ИМЕННАЯ ГРУППА ВОДОРОД - ХИМИЧЕСКИЙ ЭЛЕМЕНТ ХАЛАТ – ВЕРХНЯЯ ОДЕЖДА ГЕНИТИВНАЯ ГРУППА АМПЕР - ЕДИНИЦА ИЗМЕРЕНИЯ АБЗАЦ – ЧАСТЬ ТЕКСТА ПРЕДЛОЖНАЯ ГРУППА АВАЛЬ - ПОРУЧИТЕЛЬСТВО ПО ВЕКСЕЛЮ АКСЕЛЕРОМЕТР – ПРИБОР ДЛЯ ИЗМЕРЕНИЯ УСКОРЕНИЯ


Слайд 44

Синтаксический анализ: снятие неоднозначности


Слайд 45

о чукотском море море МОРЕ (ср.р.) МОР (мр.р.) МОРА (жр.р.) МОРА отбрасывается после синтаксического анализа Неоднозначность: пример


Слайд 46

АВАНПОРТ - внешняя часть порта, предназначенная для стоянки судов, ожидающих подхода к причалам, погрузки и разгрузки. ШНЕК - название винтового конвейера. ПАРАБОЛОГРАФ - прибор для вычерчивания плоских кривых 2-го порядка (парабол). Отношение между термином и определением


Слайд 47

Типы выделяемых отношений


Слайд 48

Правила приписывается конкретному опорному слову описывает на какой тип отношений указывает данное слово следует ли сохранять данное слово в качестве опорного или необходимо отбросить его и перейти к следующему, указанному правилом.


Слайд 49

Примеры правил: тождество Обозначение Тип отношения меняется на Same Записывается следующее (по дереву) существительное СОЦИОСФЕРА - обозначение человечества, общества, а также освоенной человеком природной среды, в совокупности составляющих часть географической оболочки.


Слайд 50

Явление Записывается «явление» Тип отношения меняется на Same Записывается следующее (по дереву) существительное СИНЕСТЕЗИЯ - явление восприятия, когда при раздражении данного органа чувств наряду со специфическими для него ощущениями возникают и ощущения , соответствующие другому органу чувств. Примеры правил: тождество


Слайд 51

Явление Записывается «явление»… атмосферное явление, физическое явление ИЗОМЕРИЯ - явление, заключающееся в существовании изомеров - соединений, одинаковых по составу и молекулярной массе, но различающихся по строению или расположению атомов в пространстве. Зачем нужен первый пункт


Слайд 52

Записать – <имя отношения> - следующее существительное <имя отношения> - следующее существительное Сложные правила Общий вид правил


Слайд 53

Род, вид, сорт… <Gen> - следующее существительное. ФИЛЬДЕПЕРС - высший сорт фильдекоса. ПИДЖИНЫ - тип языков, используемых как средство межэтнического общения в среде разноязычного населения. Примеры правил: обобщение


Слайд 54

Жанр Записать - <Gen> - следующее существительное. МИСТЕРИЯ - жанр средневекового западноевропейского религиозного театра. Примеры правил: обобщение


Слайд 55

Совокупность <Part> - следующее существительное. АРХИВ - совокупность документов, образовавшихся в результате деятельности учреждений, предприятий и отдельных лиц. Примеры правил: часть


Слайд 56

Cкопление Записать - <Part> - следующее существительное. ГАНГЛИЙ - анатомически обособленное скопление нервных клеток , волокон и сопровождающей их ткани . НО: ПНЕВМОТОРАКС - скопление воздуха или газов в полости плевры. Примеры правил: часть


Слайд 57

Часть <Whole> - следующее существительное. АЛГЕБРА - часть математики , развивающаяся в связи с задачей о решении алгебраических уравнений. Примеры правил: целое


Слайд 58

Участок Записать - <Whole> - следующее существительное. АНТИКОДОН - участок транспортной РНК, состоящий из трех нуклеотидов. НО: ИМЕНИЕ - земельный участок с усадьбой. Примеры правил: целое


Слайд 59

Метод, способ <Func> - следующее существительное. ЗАИЛЕНИЕ - метод мелиорации песчаных земель. СГРАФФИТО - способ декоративной отделки стен, при котором рисунок процарапывается в верхнем слое штукатурки и обнажается нижний слой, отличающийся по цвету. Примеры правил: инструмент/назначение


Слайд 60

Орудие Записать - <Func> - следующее существительное. ПЕРЕМЕТ - орудие лова рыбы (главным образом хищной). НО: артиллерийское орудие орудие труда Примеры правил: инструмент/назначение


Слайд 61

Инструмент, прибор, аппарат… Записать Перейти к следующему предлогу Если это для: Func – следующее существительное. ФЕН - электрический аппарат для сушки волос. «Сложные» правила


Слайд 62

Записать - <Other> - следующее существительное. АБОРТ - прерывание беременности в сроки до 28 недель (то есть до момента, когда возможно рождение жизнеспособного плода). ХОМИНГ - способность животного возвращаться со значительного расстояния на свой участок обитания, к гнезду, логову и т. д. Другие типы отношений


Слайд 63

Другие типы отношений


Слайд 64

18 правил 91 опорное слово, для которого существуют правило 8484 статей, для которых используются 4679 различных опорных слов 1978 опорных терминов Правила: резюме


Слайд 65

Экспертная оценка, 200 словарных статей 90% случаев (179 статей) решения совпали с результатами, полученными автоматически 21 случай ошибок: 16 случаев – неточности алгоритма 5 случаев – опорное слово отсутствует в тексте определений Оценка


Слайд 66

АБРАЗИВНЫЙ ИНСТРУМЕНТ - служит для механической обработки ( шлифование, притирка и другие ). АВОГАДРО ЗАКОН - в равных объемах идеальных газов при одинаковых давлении и температуре содержится одинаковое число молекул. АБИТУРИЕНТ - в большинстве стран - оканчивающий среднее учебное заведение.


Слайд 67

Результаты логико-лингвистического анализа представляются в виде таблицы единица ? измерения Пополнение онтологии


Слайд 68

Указание базового концепта онтологической таксономии Формирование энциклопедической выборки Добавление терминов выборки Постредактирование Процедура пополнения


Слайд 69

Базовый концепт: СУДНО Энциклопедическая выборка: балкер баржа барк барка баркас баркентина брандвахта брандер бриг бригантина бригантина газовоз газотурбоход галера галион глиссер джонка дизель-электроход землесосный снаряд землечерпальный снаряд иол катамаран катамаран кеч килектор клинкер клипер ковчег корабль военный коч кунгас ледокол лихтер лодка нис пароход парусное судно плашкоут понтон приз прорезь рыбоконсервная плавучая база рыбопромысловая база сейнер скампавея струг суда обеспечения судно на воздушной подушке судно на подводных крыльях судно научно-исследовательское тендер теплоход траулер тримаран турбоход шлюп шхуна электроход яхта С учетом отношения НИЖЕ: ШЛЮПКА: баркас вельбот гичка туз БАРЖА: шаланда Пополнение онтологии: пример


Слайд 70

Источники Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval - http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172 Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007 Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/ Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/ Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32


×

HTML:





Ссылка: