'

Комплексная технология автоматической классификации текстов ИПИ РАН

Понравилась презентация – покажи это...





Слайд 1

Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.


Слайд 2

Особенности реальных массивов текстов Недостаточное количество обучающих примеров Наличие ошибок в эталонной классификации Несоответствие обучающих и обрабатываемых данных Совместное использование нескольких принципов деления на классы Политематический и зашумленный характер текстов Сложность интерпретации результатов классификации Наличие повторяющейся и дублирующей информации


Слайд 3

Организационные проблемы Ограниченный доступ разработчиков систем автоматической классификации к исходным данным и массивам текстов Выполнение настройки и использования средств классификации пользователями, которые не являются специалистами в области автоматической обработки текстов


Слайд 4

Комплексная технология классификации текстов


Слайд 5

Недостаточное количество обучающих примеров Прикладные проблемы: невозможность построения правил классификации для большинства методов, основанных на обучении по примерам; низкая надежность оценки качества обучения. Решение: поддержка совместного использования трех типов решающих правил для рубрик: статистических (обучаемых на примерах документов), логических (задаются экспертами на специальном информационно-поисковом языке), шаблонных (задаются экспертами в виде регулярных выражений).


Слайд 6

Наличие ошибок в эталонной классификации Прикладные проблемы: формирование ошибочных правил классификации; результаты оценки качества обучения оказываются некорректными. Решение: выполнение при обучении оценки качества классификации и ошибок в эталонном множестве документов; учет степени тематической близости рубрик друг к другу; реализация интерактивной процедуры обучения классификатора.


Слайд 7

Пример оценки эталонного множества документов


Слайд 8

Несоответствие обучающих и обрабатываемых данных Прикладные проблемы: результаты классификации текстов могут быть неопределенными; результаты оценки качества обучения являются завышенными. Решение: выполнение оценки качества классификации в процессе обучения; обеспечение переобучения в процессе обработки новой информации; использование дополнительных словарей квазисинонимов для повышения полноты классификации.


Слайд 9

Иерархический характер и использование нескольких принципов деления на классы Прикладные проблемы: сложность построения эффективных процедур классификации, основанных на использовании одной модели или метода для всех рубрик и уровней классификатора. Решение: поддержка нескольких типов признаков (лексических, грамматических, синтаксических); комбинирование различных методов классификации; поддержка режима фасетной классификации.


Слайд 10

Комбинированный иерархический метод классификации


Слайд 11

Базовые методы классификации


Слайд 12

Пример реализации базовых методов


Слайд 13

Комбинированные классификаторы рубрик


Слайд 14

Интегральная оценка качества работы для массива «Reuters-21578-6»


Слайд 15

Оценка качества работы базовых методов для рубрик «Reuters-21578»


Слайд 16

Политематический и зашумленный характер текстов Прикладные проблемы: сложность формирования решающих правил из-за негативного влияния посторонней информации и наложение рубрик друг на друга; неопределенность расположения в тексте информации, релевантной рубрике. Решение: идентификация форматов, языков и кодировок документов; очистка текста документов от элементов оформления; исключение из текстов вспомогательной информации; использование робастных алгоритмов оценивания параметров; выделение значимых фрагментов в текстах.


Слайд 17

Выделение значимых фрагментов


Слайд 18

Пример разметки текста с помощью иерархического покрытия


Слайд 19

Наличие повторяющейся и дублирующей информации во входном потоке текстов Прикладные проблемы: сложность просмотра и анализа результатов классификации. Решение: упорядочение документов в рубриках с учетом их тематической близости друг к другу; выявление "почти дубликатов" документов; выявление основных тем документов в рубриках; автоматическое формирование сводных документов.


Слайд 20

Пример выявления основных тем в рубрике при классификации


×

HTML:





Ссылка: