'

Комплексная технология автоматической классификации текстов ИПИ РАН

Понравилась презентация – покажи это...





Слайд 0

Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.


Слайд 1

Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной классификации Несоответствие обучающих и обрабатываемых данных Совместное использование нескольких принципов деления на классы Политематический и зашумленный характер текстов Сложность интерпретации результатов классификации Наличие повторяющейся и дублирующей информации


Слайд 2

Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов


Слайд 3

Комплексная технология классификации текстов


Слайд 4

Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении по примерам; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационно-поисковом языке), шаблонных (задаются экспертами в виде регулярных выражений).


Слайд 5

Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов; учет степени тематической близости рубрик друг к другу; реализация интерактивной процедуры обучения классификатора.


Слайд 6

Пример оценки эталонного множества документов


Слайд 7

Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть неопределенными; результаты оценки качества обучения являются завышенными. Решение: выполнение оценки качества классификации в процессе обучения; обеспечение переобучения в процессе обработки новой информации; использование дополнительных словарей квазисинонимов для повышения полноты классификации.


Слайд 8

Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: поддержка нескольких типов признаков (лексических, грамматических, синтаксических); комбинирование различных методов классификации; поддержка режима фасетной классификации.


Слайд 9

Комбинированный иерархический метод классификации


Слайд 10

Базовые методы классификации


Слайд 11

Пример реализации базовых методов


Слайд 12

Комбинированные классификаторы рубрик


Слайд 13

Интегральная оценка качества работы для массива «Reuters-21578-6»


Слайд 14

Оценка качества работы базовых методов для рубрик «Reuters-21578»


Слайд 15

Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга; неопределенность расположения в тексте информации, релевантной рубрике. Решение: идентификация форматов, языков и кодировок документов; очистка текста документов от элементов оформления; исключение из текстов вспомогательной информации; использование робастных алгоритмов оценивания параметров; выделение значимых фрагментов в текстах.


Слайд 16

Выделение значимых фрагментов


Слайд 17

Пример разметки текста с помощью иерархического покрытия


Слайд 18

Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность просмотра и анализа результатов классификации. Решение: упорядочение документов в рубриках с учетом их тематической близости друг к другу; выявление "почти дубликатов" документов; выявление основных тем документов в рубриках; автоматическое формирование сводных документов.


Слайд 19

Пример выявления основных тем в рубрике при классификации


×

HTML:





Ссылка: