'

Автоматическое выделение структур в тексте

Понравилась презентация – покажи это...





Слайд 0

* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте


Слайд 1

* Санкт-Петербург 2007 * Принципы Отсутствие предварительной разметки текста Автоматическая обработка Статистические критерии выделения структур Иерархическое построение Наличие классов свободного варьирования Представление исходного текста в виде графа Итерационное выявление новых структур на основе уже существующих


Слайд 2

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные


Слайд 3

* Санкт-Петербург 2007 * Деление исходного текста на «морфемы» формальное и искусственное деление выбор самой длинной морфемы использован список морфем из первого тома Русской Грамматики деление на ММЕ (минимальные морфологические единицы) или слова


Слайд 4

* Санкт-Петербург 2007 * Примеры деления слова на ММЕ


Слайд 5

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные


Слайд 6

* Санкт-Петербург 2007 * Построение графа составляющих Предложение Граф составляющих ММЕ Узел графа: сама морфема список предыдущих морфем список последующих морфем информация об индексах морфемы служебная информация (координаты и др.)


Слайд 7

* Санкт-Петербург 2007 * Примеры графа составляющих


Слайд 8

* Санкт-Петербург 2007 * Примеры графа составляющих


Слайд 9

* Санкт-Петербург 2007 * Примеры графа составляющих


Слайд 10

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные


Слайд 11

* Санкт-Петербург 2007 * Шаблоны-кандидаты Шаблон-кандидат – последовательность узлов графа составляющих, встречающаяся в достаточном большом числе предложений Обнаружение шаблона-кандидата


Слайд 12

* Санкт-Петербург 2007 * Нахождение значимых шаблонов Значимый шаблон – шаблон-кандидат, удовлетворяющий определенным статистическим критериям Необходимо построить вероятностные функции для выявления границ значимого шаблона


Слайд 13

* Санкт-Петербург 2007 * Построение вероятностных функций


Слайд 14

* Санкт-Петербург 2007 * Использование вероятностных функций Формирование матрицы на основе функций Pr и Pl вдоль пути S графа составляющих:


Слайд 15

* Санкт-Петербург 2007 * Построение вероятностных функций Представление вероятностных функций


Слайд 16

* Санкт-Петербург 2007 * Построение вероятностных функций Построение дополнительных функций для определения скорости падения функций Pr и Pl: Пороговое значение: ? = 0.33


Слайд 17

* Санкт-Петербург 2007 * Итоговая оценка шаблона-кандидата Критерий оценки шаблона-кандидата:


Слайд 18

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные


Слайд 19

* Санкт-Петербург 2007 * Выявление классов эквивалентности Класс эквивалентности - набор вершин, которые являются взаимозаменяемыми в данном контексте (класс свободного варьирования) определить окно длины L определить в рамках данного окна слот получить шаблон, имеющий префикс, суффикс и класс эквивалентности в позиции слота Алгоритм:


Слайд 20

* Санкт-Петербург 2007 * Пример класса эквивалентности Отрывок текста корпуса CHILDES:


Слайд 21

* Санкт-Петербург 2007 * Пример класса эквивалентности that thinks Класс эквивалентности суффикс префикс


Слайд 22

* Санкт-Петербург 2007 * Пример класса эквивалентности и Катерина жила получила Класс эквивалентности суффикс префикс


Слайд 23

* Санкт-Петербург 2007 * Пример класса эквивалентности по е интер к л м Класс эквивалентности суффикс префикс р


Слайд 24

* Санкт-Петербург 2007 * Начальная обработка текста Построение графа составляющих Принципы выделения структур Классы эквивалентности Итеративность процесса выделения структур Тестовые данные


Слайд 25

* Санкт-Петербург 2007 * Образование новых узлов в графе Образование нового узла P


Слайд 26

* Санкт-Петербург 2007 * Тестовые данные


Слайд 27

* Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Простой узел


Слайд 28

* Санкт-Петербург 2007 * Пример структуры узла (текст из CHILDES) Более сложный узел


Слайд 29

* Санкт-Петербург 2007 * Пример структуры узла Простой узел


Слайд 30

* Санкт-Петербург 2007 * Пример структуры узла Простой узел


Слайд 31

* Санкт-Петербург 2007 * Пример структуры узла Более сложный узел


Слайд 32

* Санкт-Петербург 2007 * Тестирование программы на различных текстах Один из текстов Национального корпуса русского языка из раздела публицистики (1400 слов – 843 уникальных) Найдено: 163 класса эквивалентности 45 значимых шаблонов Фрагмент текста, представляющего собой слова родителей, обращенные к детям (корпус текстов CHILDES) (2020 слов – 27 уникальных) Найдено: 13 классов эквивалентности 4 значимых шаблонов


×

HTML:





Ссылка: