'

АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА

Понравилась презентация – покажи это...





Слайд 0

АВТОМАТИЧЕСКОЕ РАЗБИЕНИЕ ТЕКСТА НА ПРЕДЛОЖЕНИЯ ДЛЯ РУССКОГО ЯЗЫКА Ольга Урюпина (uryupina@gmail.com) Институт Языкознания РАН, Ашманов и Партнеры 06.06.08


Слайд 1

Вкратце Зачем и почему Примеры Признаки Эксперименты


Слайд 2

Вкратце Зачем и почему Примеры Признаки Эксперименты


Слайд 3

Автоматическая обработка текста синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы ... Текст, разбитый на предложения


Слайд 4

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 5

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 6

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 7

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 8

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 9

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 10

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 11

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 12

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 13

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 14

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 15

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 16

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 17

Наивная сегментация В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 18

Наивная сегментация км), второй интервал -- 700. синтаксический анализ (парсеры) системы автоматического реферирования машинный перевод экспертные системы ...


Слайд 19

Практические решения Эвристики: Предложение должно содержать буквы Предложение должно начинаться с заглавной буквы Сокращения (из списка) требуют «особого внимания» ...


Слайд 20

Проблемы Сложно адаптировать к новым данным Сложно адаптировать к новым задачам Сложно оценить роль отдельных факторов


Слайд 21

Вкратце Зачем и почему Примеры Признаки Эксперименты


Слайд 22

Точка URL: www.dialog-21.ru даты, время: 06.06.08 сокращения: тыс. руб. сокращения в конце предложения опечатки: Михаил. Бычков многоточия: эээ... 100...200 форматирование: Введение................1 Данные...................5


Слайд 23

Вопросительный и восклицательный знаки комментарии: (правда?) - о ужас! – комбинации знаков: да ну?! xxx: ?????? URL: http://maps.google.com/maps?f=q&hl=de&geocode=&q=bekasovo&sll=37.0625,-95.677068&sspn=49.310476,76.640625&ie=UTF8&z=15&iwloc=addr кодировка: ?Локомотив?


Слайд 24

Скобки и кавычки .) и ). не по правилам «», „“, ““, ‘ ‘, ‘


Слайд 25

Вкратце Зачем и почему Примеры Признаки Эксперименты


Слайд 26

Контексты знак препинания слово слева слово справа «настоящее» слово справа


Слайд 27

В связи с этим первый интервал пробегов был принят равным 350...700 тыс. км (середина интервала - 525 тыс. км), второй интервал -- 700...1050 тыс. км (середина интервала - 875 тыс. км) и третий интервал 1050...1400 тыс. км (середина интервала -- 1225 тыс. км).


Слайд 28

Контексты знак препинания . слово слева 700 слово справа . «настоящее» слово справа 1050


Слайд 29

Признаки сокращения «тип» слова начало и конец абзаца расстояния до потенциальных границ


Слайд 30

Сокращения Извлечены автоматически из НКРЯ: слово . слово_со_строчной (дополнительно: по разметке)


Слайд 31

Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее» слово справа 1050 расстояние1 6 расстояние2 1 сокращение справа нет сокращение слева нет тип слова слева цифры тип слова справа пунктуация тип «настоящего» слова справа цифры начало абзаца нет конец абзаца нет


Слайд 32

Вектор признаков знак препинания . слово слева 700 слово справа . «настоящее» слово справа 1050 расстояние1 6 расстояние2 1 сокращение справа нет сокращение слева нет тип слова слева цифры тип слова справа пунктуация тип «настоящего» слова справа цифры начало абзаца нет конец абзаца нет


Слайд 33

Вкратце Зачем и почему Примеры Признаки Эксперименты


Слайд 34

Данные НКРЯ, 33 документа: политика, культура ремонт локомотивов Ручная разметка


Слайд 35

Данные - статистика предложений 1639 предложений с .?! 1414 контекстов 5230(=4230+1000) контекстов с .?! 2048


Слайд 36

Контрольные эвристики termpunct: Предложение должно заканчиваться «.», «?», или «!». termpunct_cap: +Предложение должно начинаться с заглавной буквы. advanced: + Предложение не должно заканчиваться сокращением и «.».


Слайд 37

Результаты-1


Слайд 38

Результаты-2


Слайд 39

Пример <s> Был на церемонии момент , когда прозвучала пронзительно высокая и чистая нота . " Ника " за " Честь и Достоинство "-- вот так , всё с заглавной буквы -- вручалась Петру Ефимовичу Тодоровскому .</s> <s> Петру Тодоровскому -- оператору и режиссёру , композитору и музыканту , солдату и просто замечательному человеку .</s> <s> Он молодой , ошалевший от победной весны 45-го , смотрел на нас с экрана в хуциевском фильме " Был месяц май ".</s> <s> Он вышел на сцену под гром аплодисментов и " Рио-риту ".</s> <s> Для своих ровесников и друзей так и оставшийся в его - то годы Петей Тодоровским .</s> <s> Он прошёл через зал ," по главной улице с оркестром ", держа в руках гитару .</s> <s> Спасибо вам , дорогой Петр Ефимович !</s> <s> За веру , верность и " Верность ", за всё ваше кино , за то , что вы сделали для нас , за вашу нескончаемую любовь , за то , что вы есть .</s> <s> За то , что " и вcё-таки , и вcё-таки , и вcё-таки мы победили "!</s> <s> Той весной .</s> <s> За то , что у нас есть эта весна .</s> <s> И это ее семнадцатое мгновение .</s>


Слайд 40

Заключение статистический подход к задаче определения границ предложений в произвольном тексте на русском языке: легко адаптировать к новым данным и задачам высокая скорость высокая полнота и точность В будущем: лингвистическая экспертиза (сокращения) новые данные (кавычки)


Слайд 41

Спасибо!


×

HTML:





Ссылка: