'

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня

Понравилась презентация – покажи это...





Слайд 0

Языконезависимое определение авторства текста на базе языковых моделей символьного уровня


Слайд 1

Проблема определения авторства текста Невыясненное авторство исторических документов Категоризация коллекций документов Извлечение информации Вопросно-ответные системы


Слайд 2

Принцип определения авторства Автор при составлении текста использует языковые средства различных уровней: Семантические Синтаксические Лексикографические Орфографические Морфологические Особенности использованных в тексте языковых средств позволяют судить об авторстве текста.


Слайд 3

Возможные подходы к решению проблемы определения авторства Стилистический анализ Статистическое языковое моделирование


Слайд 4

Стилистический анализ Проводится в два этапа: Извлечение стилевых маркеров Построение классификатора


Слайд 5

Недостатки метода Процедуры извлечения стилевых маркеров почти всегда зависят от языка текста Выбор исследуемых свойств является нетривиальной задачей Анализ проводится только на уровне слов Неприменимость к восточноазиатским языкам, в которых отсутствует явное разделение слов


Слайд 6

Статистическое языковое моделирование Заключается в выявлении закономерностей в естественном языке (семантических, лексикографических и морфологических шаблонов), на основе которых можно делать прогнозы Задача - предсказание вероятности появления в тексте последовательностей слов, которые действительно имеют место в тексте


Слайд 7

Оценка качества модели Perplexity = Entropy =


Слайд 8

N-граммная модель Вероятность появления цепочки слов: N-граммная модель аппроксимирует эту вероятность в предположении, что на вероятность появления слова влияют только последние n-1 слов:


Слайд 9

N-граммная модель В самом простом случае Использование грамм длины n означает вычисление вероятностей событий Вероятность появления новых n-грамм всегда ненулевая.


Слайд 10

Сглаживание вероятностных оценок


Слайд 11

Принципы классификации Используется Баесова теория принятия решения: текст D относится к авторской категории если В соответствии с правилом Байеса:


Слайд 12

Результаты классификации Греческий корпус: две коллекции по 200 документов 10 различных авторов, F-мера 74% и 90% Английский корпус: Alex Catalogue of Electronic Texts, 8 авторов, наилучшая F-мера 98% при использовании 6-граммной модели с абсолютным сглаживанием 8 авторов, F-мера 94% при использовании 3-граммной модели при использовании алгоритма сглаживания Виттена-Белла


×

HTML:





Ссылка: