'

Автоматическое формирование рубрикатора полнотекстовых документов

Понравилась презентация – покажи это...





Слайд 0

Автоматическое формирование рубрикатора полнотекстовых документов Пескова Ольга Вадимовна Московский государственный технический университет им. Н.Э.Баумана 2008


Слайд 1

Постановка задачи Дано: фонд полнотекстовых документов университетской библиотеки (учебные, обзорно-аналитические материалы различного объёма) Требуется: создать средство тематической навигации по всему фонду или по его подмножествам, способное автоматически подстраиваться под тематику конкретного набора документов.


Слайд 2

Механизм применения средства тематической навигации


Слайд 3

Требования к виду искомой навигационной схемы Рубрикатор, унаследовавший основные характеристики от традиционного предметного рубрикатора библиотеки МГТУ им. Н. Э. Баумана: иерархические связи между рубриками (не более 2-3 уровней); родственные связи между рубриками (типа «см. также»); краткое описание и список ключевых слов.


Слайд 4

Способ представления рубрикатора , где – это множество вершин – множество рёбер графа, Граф G* является многоуровневым и содержит подграфы Каждая выявленная группа документов должна иметь название и список ключевых слов. графа, отражающих кластеры документов, полученные при кластеризации коллекции полнотекстовых документов на заданном уровне иерархии; Рубрикатор в виде графа отражающих как иерархические так и родственные связи.


Слайд 5

Функциональная схема автоматического формирования рубрикатора


Слайд 6

Выбор подхода к формированию образов документов


Слайд 7

Предложенный алгоритм формирования образов документов Построение словаря признаков (одиночных слов) всех документов (морфологический анализ – стеммер М.Портера). Принудительная редукция признаков: удаление стоп-слов; Удаление слов по критерию документальной частоты с порогами tDFmin и tDFmax, где tDFmin=<1 документ> и tDFmax=<80% документов>. Взвешивание признаков документов по схеме TFIDF. Принудительная редукция признаков (продолжение): для каждого документа в отдельности удаление некоторой доли tWP самых маловесомых признаков, где tWP=0.60. Избирательная редукция: удаление из образов некоторых документов тех признаков, что обладают слабой различительной способностью для представления некоторого тематического класса.


Слайд 8

Иллюстрации к предположению об избирательной редукции (1)


Слайд 9

Иллюстрации к предположению об избирательной редукции (2) ? ?


Слайд 10

Алгоритм избирательной редукции


Слайд 11

Выбор алгоритма кластеризации


Слайд 12

Модифицированный алгоритм кластеризации документов


Слайд 13

Дополнение кластерной структуры до искомого рубрикатора


Слайд 14

Тестовые коллекции On-line библиотека CITFORUM (http://www.citforum.ru): наработка эмпирических сведений к методу формирования рубрикатора и оценка его эффективности (CL1572). Ресурсы библиотеки МГТУ им. Н. Э. Баумана – коллекция авторефератов диссертаций – апробация системы формирования рубрикатора (TAL234). Коллекция нормативно-правовых документов законодательства Российской Федерации, сформированная в 2004 году для выполнения заданий в рамках РОМИП (Legal2004_5000). Отобраны те документы, для которых есть информация о их принадлежности рубрикам, - 25034 документов.


Слайд 15

Меры качества кластеризации Внешние меры: автоматическое сравнение полученного разбиения документов с «эталонным» разбиение на кластеры (рубрики). Внутренние меры: автоматическая оценка свойств отделимости и компактности полученного разбиения документов.


Слайд 16

Внешние меры качества кластеризации Полнота Точность F1-мера Ошибка Аккуратность и др.


Слайд 17

Внутренние меры качества кластеризации Оценка иерархического разбиения: Кофенетический коэффициент корреляции (CPCC) Оценка плоского разбиения: Индекс Данна (Dunn, DI) Индекс Девиса-Булдина (Davies-Bouldin, DB) Индекс Калинского и Гарабача (Calinski и Harabasz, CH) I-индекс (I-index)


Слайд 18

Испытания алгоритма формирования образов (на CL1572) Оценка способа формирования образов. (1) – без редукции, (2) – с принудительной редукцией, (3) – с принудительной и избирательной редукцией


Слайд 19

Испытание модифицированного алгоритма кластеризации (на CL1572) Оценка алгоритма кластеризации: (1) – иерархический агломеративный алгоритм (усечение дерева при пороге меры близости – 0,20), (2) – исходный алгоритм послойной кластеризации (два уровня при порогах меры близости {0,40; 0,20}), (3) – модифицированный алгоритм послойной кластеризации (два уровня при порогах меры близости {0,40; 0,20}).


Слайд 20

Пример интерфейса навигации по подмножеству CL1572


Слайд 21

Испытание модифицированного алгоритма кластеризации (на TAL234) Ошибка автоматической классификации на TAL234: 3,2% - в сравнении с классификацией авторефератов по УДК; 13,6% - в сравнении с областью знания по номенклатуре ВАК , что объясняется тематическим перекрытием укрупнённых направлений, по которым осуществляется подготовка и защита диссертаций.


Слайд 22

Испытания системы на Legal2004_5000 (1) Оценить качество кластеризации предложенным методом со значениями параметров, подобранными ранее на других коллекциях. Сравнить качество кластеризации при различных значениях параметров алгоритмов. Продолжить экспериментальное исследование алгоритма избирательной редукции. Оценить устойчивость метода (например, методом половинного деления). Оценить зависимость значений внешних и внутренних мер качества кластеризации. Усовершенствовать алгоритм формирования названий кластеров.


Слайд 23

Испытания системы на Legal2004_5000 (2) Оценка кластеризации модифицированным алгоритмом (Legal2004_5000): (1) – с принудительной редукцией, (2) – с принудительной и избирательной редукцией (порог меры близости = 0,60).


Слайд 24

Испытания системы на Legal2004_5000 (3) Количественные характеристики пространства признаков


Слайд 25

Дальнейшие планы Закончить эксперименты на 5000 документов Провести исследования на 25034 документов Получить основания для выбора дальнейшего пути развития метода формирования рубрикатора


Слайд 26

Вопросы opeskova@mail.ru


×

HTML:





Ссылка: