'

Методы автоматической обработки тем сообщений в потоках новостных сообщений

Понравилась презентация – покажи это...





Слайд 0

Методы автоматической обработки тем сообщений в потоках новостных сообщений Зевайкин А.Н. ИКСИ


Слайд 1

Постановка задачи Объект: потоки новостных сообщений Цель: автоматическое выделение и представление актуальных тем в потоке новостей.


Слайд 2

Актуальность задачи Актуальность задачи обосновывается: С одной стороны, потребностью получать в реальном масштабе времени наиболее полные и точные сведения об окружающей обстановке. С другой стороны, идет постоянный рост объемов доступной текстовой информации, которую уже невозможно обрабатывать ручными методами.


Слайд 3

Отличие от существующих систем Многие существующие системы обработки текстовых данных способны работать с уже известными, заранее определенными понятиями, такими как поисковый запрос и образ рубрики. Но эти системы не способны в полной мере оперировать с новыми неизвестными понятиями, такими, как только что произошедшее событие.


Слайд 4

Типичный день аналитика: Обойти все интересующие новостные сайты Выделить для себя самые актуальные темы Создать дайджест актуальных новостей


Слайд 5

Используемые понятия Сообщение - единичный текстовый документ, поступающий из некоторого источника. Тема - «тема - предмет описания, изображения, исследования, выступления, дискуссии». В новостных системах тема описывается множеством сообщений, связанных между собой общим событием.


Слайд 6

Модель темы Тема – абстрактное понятие, описываемое однородной группой похожих, в определенном смысле, сообщений.


Слайд 7

Ограничение автоматизированных систем Любая автоматизированная система не способна однозначно выделить темы, она может лишь описать ее множеством сообщений, сама тема складывается в голове у пользователя системы после ознакомления с данным множеством сообщений.


Слайд 8

Методы автоматической обработки тем Выделение тем Ранжирование тем Представление тем


Слайд 9

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 10

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 11

Кластеризация текстовых сообщений Целью кластеризации сообщений является автоматическое выявление групп лексически похожих сообщений среди заданного фиксированного множества сообщений.


Слайд 12

Формальная модель текста Тексты представляются векторами в элементарной теоретико-множественной модели. В качестве информационных признаков выбраны простые термины, приведенные к нормальной форме с помощью морфоанализа. Для снижения размерности используется селекция и трансформация признаков.


Слайд 13

Использование структуры текста Авторы сообщений вносят дополнительную смысловую структуру в текст, разбивая его на абзацы – части текста, характеризующиеся единством и относительной законченностью содержания. Данное разбиение позволяет выделить отдельные мысли в тексте и использовать это для улучшения кластерного анализа.


Слайд 14

Метод кластерного анализа текстов с разбиением на абзацы Выделение абзацев Кластерный анализ абзацев Переход от групп абзацев к группам документов


Слайд 15

Эффективность кластерного анализа текстов с разбиением на абзацы Применение разбиения на абзацы позволяет уменьшить относительную ошибку кластеризации в 2 раза.


Слайд 16

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 17

Понятие «актуальности» Согласно БСЭ, «Актуальность - важность, значительность чего-либо в настоящее время, современность, злободневность».


Слайд 18

Понятие «актуальности темы» Тема является актуальной, если она обладает следующими признаками: 1. Тема - новая по времени, то есть описывается свежими сообщениями. 2. Тема - важная, то есть описывается сообщениями, отражающими интерес пользователей и источников к данной теме.


Слайд 19

Основные факторы актуальности тем Время Важность для пользователя для источников


Слайд 20

Основные факторы актуальности тем Время Важность для пользователя для источников


Слайд 21

Ранжирование тем по времени Сначала вычисляется среднее или последнее время сообщений в группе, затем время нужно подставить в функцию старения s(t).


Слайд 22

Вид функции старения Современность, s Прошедшее время, t


Слайд 23

Примеры функций современности


Слайд 24

Основные факторы актуальности тем Время Важность для пользователя для источников


Слайд 25

Ранжирование тем по важности для пользователя Важность для пользователя мы можем рассчитать по количеству чтений сообщений из данной темы. Чем больше сообщений, тем более тема интересна пользователям.


Слайд 26

Группы пользователей При большом количестве пользователей имеет смысл разделение пользователей на группы по интересам. Пользователь будет относиться к одной из групп, и ранг тем по важности для пользователя будет учитывать интересы группы.


Слайд 27

Ранг по важности для пользователя с учетом групп Ранг темы по важности для пользователя с учетом групп будет равен: где Nread0, Nread1 – число чтений пользователей, соответственно, из «чужих» групп и «своей» группы, a0, a1 – коэффициент, соответственно, «чужих» и «своей» группы.


Слайд 28

Преимущества применения групп пользователей Ранг тем будет динамически изменяться в зависимости от группы пользователя, и ранг будет выше у тех сообщений, которые больше интересны пользователям «своей» группы.


Слайд 29

Основные факторы актуальности тем Время Важность для пользователя для источников


Слайд 30

Ранжирование событий по важности для СМИ Количество сообщений в группе отображает общий интерес новостных источников к данному событию. Чем больше пишут о данном событии, тем более оно интересно.


Слайд 31

Ранжирование событий по важности для СМИ Возможен более сложный вариант учета сообщений от источников: суммирование количества сообщений от данного источника умноженных на вес источника. Этим способом мы сможем отбросить излишние цитирования и сомнительные новости.


Слайд 32

Ранжирование событий по важности для СМИ Остается неучтенным вариант, когда один источник, пусть даже с малым весом, будет посылать большое количество сомнительных новостей на одну тему, в этом случае данная тематика подняться выше других, что неправильно. Следует учитывать и долю источников, пишущих о данной теме, чем больше, тем лучше.


Слайд 33

Ранжирование событий по важности для СМИ Формула ранга важности для СМИ будет иметь следующий вид: , где i – число источников, k- число источников, пишущих на данную тему, vi - вес источника, ni - количество сообщений из данного источника на данную тему.


Слайд 34

Формула актуальности темы Rfull=Ffull(Rtime, Ruser, Rsmi)


Слайд 35

Простейшая формула актуальности темы , где atime, auser, asmi – соответствующие коэффициенты рангов по времени, важности, задаваемые пользователем.


Слайд 36

Формула актуальности темы Более гибкий и сложный вариант – многокритериальное ранжирование.


Слайд 37

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 38

Аннотирование тем Предлагается использование результатов кластерного анализа с разбиением на абзацы для реферирования полученных тем. Выделяются абзацы, ближайшие к центру кластера, содержание каждого такого абзаца будет наиболее близко к теме соответствующего кластера. Полученные абзацы представляют собой законченные смысловые блоки текста, наиболее близкие к данной теме, то есть реферат темы.


Слайд 39

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 40

Аннотирование сообщений Для каждого сообщения в теме (кластере) можно найти один или несколько абзацев, которые будет наиболее близки к центру данного кластера. Данные абзацы будет являться выдержкой из текста, которая наиболее близка по содержимому к выбранной теме, то есть кратким описанием сообщения как элемента темы.


Слайд 41

Наглядное представление метода аннотирования Кластер, описывающий тему Абзацы одного сообщения Центральный абзац кластера


Слайд 42

Методы автоматической обработки тем Выделение тем Кластеризация сообщений с использованием структуры текста Ранжирование тем Введение единого ранга «актуальность» и ранжирования по нему Представление тем Аннотирование тем Аннотирование сообщений Ранжирование сообщений


Слайд 43

Пример аннотирования ПО ДАННЫМ ПАРАЛЛЕЛЬНОГО ПОДСЧЕТА 67,3%% БЮЛЛЕТЕНЕЙ В ШТАБЕ ЯНУКОВИЧА, ЗА ПРЕМЬЕРА ПРОГОЛОСОВАЛИ 50,54 Как заявила журналистам представитель штаба Януковича Раиса Богатырева, после обработки 67,3%% бюллетеней центром параллельного подсчета голосов при штабе за Януковича проголосовали 50,54%%, за Ющенко - 45,53%%. НАБЛЮДАТЕЛИ ОТ СНГ НЕ ЗАФИКСИРОВАЛИ СЕРЬЕЗНЫХ НАРУШЕНИЙ НА ВЫБОРАХ ПРЕЗИДЕНТА УКРАИНЫ В частности, в Одессе, Львове, Киеве наблюдалось несвоевременное открытие избирательных участков, уточнил собеседник агентства. Также, по его словам, во Львове, Херсонской области и Луцке на отдельных избирательных участках в кабины для голосования заходили сразу несколько человек.


Слайд 44

Пример аннотирования системы «Яндекс Новости» Украина: взлом сейфа и гонки по вертикали 11:21 Правда.ru Со всех уголков Украины продолжает поступать информация о нарушениях и ... ... списков и бюллетеней только в 14 часов в воскресенье, сообщает МВД Украины. Оппозиция на улице, в ЦИКе перерыв 11:05 РБК ЦИК Украины объявил перерыв в подсчете голосов до 15 часов. ... обработки Центральной избирательной комиссией Украины 75,26% протоколов стало ...


Слайд 45

Ранжирование сообщений в выбранном событии Ранжирование сообщений по времени Ранжирование сообщений по содержанию


Слайд 46

Ранжирование сообщений по времени Использует подобную функцию, как и в случае ранжирования событий.


Слайд 47

Ранжирование сообщений по содержанию Близость сообщения к центру группы. Процент абзацев сообщения, наиболее близких тематике события.


Слайд 48

Формула ранга сообщения Подход к вычислению итогового ранга аналогичен подходу вычисления актуальности темы. Простой случай – произведение рангов, Сложный случай – многокритериальное ранжирование.


Слайд 49

Заключение Рассмотренная задача автоматического определения актуальности сообщения отличается от уже существующих задач аналитической обработки текстов более широким подходом к анализу новых сообщений. Предлагается анализировать не только содержимое текстов, но большое число других факторов, что позволяет в итоге более точно ранжировать сообщения по степени актуальности их для аналитика, обращать внимание на наиболее важные и свежие сообщения и пропускать ненужные.


Слайд 50

Новизна исследования Разработаны: Метод кластерного анализа текстовых сообщений с использованием структуры текста Метод ранжирования тем сообщений Метод наглядного представления тем и сообщений


Слайд 51


Слайд 52

Подсистема предварительной обработки Лингвистическая обработка, формирование векторного представления. Формирование паспорта сообщения.


Слайд 53


Слайд 54

Подсистема хранения Хранение данных системы, таких как тексты и паспорта сообщений, лексический словарь, статистика запросов пользователей и прочая информация.


Слайд 55

Подсистема выделения тем и вычисления актуальности Выделение тем Подготовка кластерного анализа Кластерный анализ абзацев Переход от групп абзацев к группам сообщений Вычисление актуальности


Слайд 56

Подсистема визуализации Получение данных Дополнительная обработка данных Выдача данных пользователю и реакция на запросы


Слайд 57


Слайд 58


×

HTML:





Ссылка: