'

Автоматическое составление обзорного реферата на основе кластеризации предложений

Понравилась презентация – покажи это...





Слайд 0

Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ МГУ Лукашевич Н.В.


Слайд 1

Автоматическое составление обзорного реферата Одна из важнейших практических задач автоматической обработки текста Обзорный реферат это совокупность предложений, позволяющих пользователю за небольшое время ознакомиться с основным содержанием тематически связанного набора документов К обзорному реферату предъявляются требования По содержанию По читабельности


Слайд 2

Постановка задачи Разработка модели кластеризации предложений с учетом информации об отношениях между словами, описанной в тезаурусе РуТез Проведение оценки качества кластеризации предложений Создание системы автоматического составления обзорного реферата на основе метода кластеризации предложений для обеспечения: полноты покрытия содержания набора документов снижения повторяемости информации в реферате. Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.


Слайд 3

Исходные данные Набор новостных статей Статьи с единой темой Результаты графематического анализа Размеченные предложения Результаты морфологического анализа Слова, приведенные к начальной форме Выделенные концепты набора статей Концепт – слово, определение которого найдено в тезаурусе Связи концептов в тезаурусе Мексика – Государство Колумбия – страна Латинской Америки


Слайд 4

Описание метода кластеризации предложений - 1 Определение меры близости для каждой пары предложений Векторное представление предложения Мера близости пары предложений


Слайд 5

Описание метода кластеризации предложений - 2 Мера близости по отношениям концептов Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.


Слайд 6

Описание метода кластеризации предложений - 3 Описание алгоритма агломеративной кластеризации Каждое предложение – отдельный кластер, Определение Rmax threshold <= Rmax - объединение U и V в один кластер N, иначе остановка кластеризации Пересчет расстояний от нового кластера до остальных кластеров Переход на шаг 1


Слайд 7

Оценка кластеризации Ручная кластеризация Попарное сравнение Вычисление F-меры


Слайд 8

Составление аннотации Определение наиболее важных кластеров Выбор кластеров с наибольшим количеством предложений Определение и извлечение центра кластера Определение порядка выбранных предложений


Слайд 9

Программная реализация Используемые инструментальные средства: СУБД Microsoft Access Язык программирования Microsoft Visual Basic


Слайд 10

Описание эксперимента Дано 10 наборов по 30 новостных статей в каждом Необходимо вычислить значения параметров наилучшей кластеризации Составить аннотацию на основе полученных значений параметров


Слайд 11

Результаты эксперимента Улучшение Fmeasure на 7% при точности P > 0.7 Пример составленной аннотации Стэнфорд попытался арендовать частный самолет, однако из-за того, что его счета заморозили, компания-авиаперевозчик не приняла к оплате его кредитную карту. Властям США неизвестно место нахождения миллиардера Аллена Стэнфорда, которого обвиняют в мошенничестве в крупных размерах. Ассоциация крикета Англии и Уэльса отказалась от спонсорских отношений со Стэнфордом до окончания расследования. В США техасский миллиардер обвиняется в мошенничестве на сумму около 8 млрд долл. По данным Комиссии по ценным бумагам и биржам США, в течение последних 15 лет принадлежащая миллиардеру компания Stanford Financial Group реализовывала мошенническую схему продажи ценных бумаг, суливших инвесторам получение высоких доходов. Тем временем латиноамериканские издания отмечают, что паника началась в Мексике, Панаме, Колумбии, Эквадоре, Перу и некоторые филиалы (Эквадор и Перу) были вынуждены на неопределенное время приостановить свою работу.


Слайд 12

Заключение В ходе выполнения дипломной работы: Предложена модель кластеризации предложений с учетом тезаурусной информации Реализована программная система, производящая кластеризацию предложений и составляющая обзорный реферат Произведено тестирование созданной программной системы на различных наборах новостных статей В ходе эксперимента были проанализированы и выбраны оптимальные параметры метода Показано улучшение кластеризации предложений за счет тезаурусных знаний на 7%


×

HTML:





Ссылка: