'

1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко 16.04.2007.

Понравилась презентация – покажи это...





Слайд 0

1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко 16.04.2007


Слайд 1

2 План Что такое Яндекс.Новости? Автоматическая кластеризация сообщений в сюжеты Ранжирование новостных сюжетов Автоматическое аннотирование сюжета: выбор заголовка, текста, картинки Выделение объектов из текста Аннотирование кластера документов (сюжета) Выбор наиболее релевантных объектов и фактов Выбор предложений для аннотации


Слайд 2

3 Яндекс.Новости Автоматическая кластеризация 80 000 новостных сообщений в сюжеты – новости об одном событии. - Определение ключевых слов документа - Поиск для каждого документа по его ключевым словам близких документов - Многопроходная кластеризация документов по специально построенным из документа и по пользовательским запросам Ранжирование сюжетов - количество сообщений - новизна - пользовательский интерес «новостные» запросы «кликабельность» сюжетов


Слайд 3

4 Яндекс.Новости. Страница рубрики


Слайд 4

5 Яндекс.Новости. Страница сюжета Заголовок - Соответствие лексическому ядру - «Красота»: длина, синтаксическая полнота - Новизна Картинка Аннотация Сюжет в лицах, Карта к сюжету Список сообщений, составляющих сюжет - Отсортирован по времени - Релевантные, не дублирующиеся сообщения


Слайд 5

6 Яндекс.Новости. Страница сюжета


Слайд 6

7 Извлечение фактов из текстов сюжета Извлекаемые объекты и факты ФИО названия организаций географические объекты даты и числа цитаты Справочная информация адрес – ссылка на карту фио – ссылка на пресс-портрет новостной источник – ссылка на сайт/статью


Слайд 7

8 Извлечение фактов из текста 12 марта этого года задержан заместитель главного бухгалтера финансово-экономического управления УВД Хабаровского края Владимир Дуничев, похитивший более 10 миллионов рублей.


Слайд 8

9 Отбор предложений для аннотации отождествление объектов одного типа из разных документов сюжета приписывание объектам весов по упоминаемости и по типу выбор всех предложений из всех документов, содержащих ключевые слова сюжета взвешивание предложений по входящим в них ключевым словам и входящим в них фактам


Слайд 9

10 Отбор предложений для аннотации просев полученных предложений: - по шинглам – удаление лексических дублей 4 апреля гособвинение потребовало приговорить Ульмана и Перелевского к 23 годам тюрьмы, а Воеводина и Калаганского - к 18 годам. Гособвинение требует приговорить Эдуарда Ульмана и Алексея Перелевского к 23 годам лишения свободы каждого, Александра Калаганского - к 18 годам. - по объектам – удаление содержательных дублей На процессе в Северо-Кавказском военном суде объявлен перерыв до 13 апреля из-за неявки троих обвиняемых Эдуарда Ульмана, Александра Калаганского и Владимира Воеводина. Подсудимые по делу о расстреле чеченских жителей Эдуард Ульман, Александр Калаганский и Владимир Воеводин не явились в четверг на заседание Северо-Кавказского военного суда. - выбор из дублирующихся самого раннего выбор N самых весомых предложений


Слайд 10

11 Пути развития Учет сценария события для определения необходимых составляющих аннотации Футбольный матч Пожар Принятие нового закона Улучшение связности текста аннотации


Слайд 11

12 Спасибо!


×

HTML:





Ссылка: