'

Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux

Понравилась презентация – покажи это...





Слайд 0

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 1 Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux http://www.RCO.ru 119899, Москва, Ленинские Горы, влад. 1, стр. 75 Г тел: +7 (095) 930-8759/58 E-mail: rco@metric.ru


Слайд 1

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 2 Содержание Введение Oracle Text – краткий обзор Russian Context Optimizer Обзор Возможности Технологии Архитектура Перспективы


Слайд 2

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 3 Текст 90% информации – текст Web, E-mail, Файлы,... MS Office, PDF, HTML, XML,… Почему бы не использовать при принятии решений?


Слайд 3

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 4 Требования к поиску Надежность / масштабируемость / производительность Обработка и хранение разнородной информации Мощный поисковый механизм Средства анализа текста Какой хотелось бы видеть подсистему поиска?


Слайд 4

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 5 Что предлагает Oracle Oracle Text Индексирование, Поиск Тематический анализ, Классификация Много форматов, кодировок, XML Ultra Search Гетерогенные хранилища (Tables, Files, Web, IMAP,…) Сквозной поиск iFS Хранение, управление, совместная работа


Слайд 5

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 6 Oracle Text Полностью интегрирован с базой данных Полноценные поисковые возможности Поддержка более 100 форматов документов – Inso Filters Продвинутая лингвистика – Stemming, Fuzzy, Soundex, Theme Lexing, Gists, Thesaurus, Classification, Clustering


Слайд 6

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 7 Сложности с русским языком Поиск – только без учета словоформ НО... Oracle Text – расширяем Oracle Database – много возможностей


Слайд 7

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 8 Russian Context Optimizer Назначение продукта Лингвистическое обеспечение и оригинальные алгоритмы для полноценной работы с русскоязычными документами в Oracle Text Версии Ноябрь 1997 – RCO 1.0 Ноябрь 2002 – RCO 4.0.1


Слайд 8

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 9 RCO – Позиционирование


Слайд 9

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 10 RCO – Обзор – I Аналоги всех возможностей Oracle Text для русского языка Морфология, тезаурус Средства актуализации лингвистического обеспечения Нечеткий поиск, тематический анализ, рефераты, рубрицирование


Слайд 10

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 11 RCO – Обзор – II Кодировки – все для русского языка + UTF8 С точки зрения разработчика – PL/SQL Package Платформы – LINUX, а также… WinNT/2000, HP-UX, SUN Solaris, IBM AIX, Compaq Tru64


Слайд 11

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 12 RCO – Возможности Учет словоформ Учет опечаток Учет синонимов Учет связей между темами Подсветка Тематический портрет документа Семантическая сеть по массиву документов Ключевые темы Рефераты Соответствие рубрикам Тематическая структура Изменения тематики потока во времени ПОИСК АНАЛИЗ СИНТЕЗ


Слайд 12

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 13 RCO – Поиск Словоформы президент=президента=президенту=... Опечатки Черномырдин=Чернормырдин= Черномырдным=Чермомырдиным Синонимы вор=тать=жулик=жулье=ворюга=воришка= воровка Тематически близкие золото=слиток=ювелирное изделие=...


Слайд 13

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 14 RCO – Анализ Ассоциативная семантическая сеть


Слайд 14

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 15 RCO – Синтез – Текст Москва, 28 ноября /МК-Новости/. В январе – октябре 1997 года в России было добыто 92,2 тонны золота. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. Произошли существенные изменения в географии добычи золота: в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. Возросла золотодобыча в Красноярском крае – на 71,8%, на Чукотке - в 2 раза, в Пермской области – на 62,8%. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем - октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. Произошли существенные изменения в географии добычи золота: в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. ДОБЫЧА ЗОЛОТА, ЗОЛОТО Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. ВЫПЛАВКА, ЗОЛОТОЙ СЛИТОК Выплавлена 71 тонна золотых слитков. Не обязательно читать весь документ


Слайд 15

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 16 RCO – Синтез – Рубрицирование Легко понять структуру и сузить область поиска


Слайд 16

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 17 RCO – Синтез – Динамика Легко понять изменения и сузить область поиска


Слайд 17

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 18 RCO – Технологии Морфология Тезаурус Нечеткий поиск Тематический анализ Автоматическое реферирование Классификация Кластерный анализ Лингвистическое обеспечение Базовые алгоритмы Прикладные алгоритмы


Слайд 18

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 19 RCO – Лингвистическое обеспечение Морфологический словарь Словарная морфология - 110 000 слов Бессловарная морфология Тезаурус Общий объем – 75 000 единиц Cинонимы - 17 000 рядов Гипонимы (общее – частное) – 22 000 рядов Общеупотребимая лексика – 10 000 слов


Слайд 19

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 20 RCO – Базовые алгоритмы Нечеткий поиск Fuzzy и Soundex для русского языка Расширение только словами из индекса Можно регулировать степень подобия Тематический анализ В основе ассоциативная семантическая сеть Можно настраивать


Слайд 20

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 21 RCO – Прикладные алгоритмы Рефераты Общий (gist) По теме (point-of-view gist) Классификация Обучение Настройка перечня тем и весов вручную Построение рубрикаторов Построение «на лету» 3 стратегии


Слайд 21

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 22 RCO – Архитектура Oracle Database Oracle Text Oracle Text Indexes & Settings RCO Indexes & Settings RCO Filter Inso Filters RCO package User PL/SQL Application OCI Queue RCO Listener Shared Memory


Слайд 22

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 23 RCO – Направления развития Более тесная интеграция с Oracle 9iR2, USER_LEXER,… Внедрение новых технологий Синтактико-семантический анализ и синтез Движение по направлению к ИАС Категории объектов и связей Открытая семантическая сеть


Слайд 23

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 24 RCO – Лицензирование Standard vs Enterprise Edition RCO Ling: пакет актуализации лингвистического обеспечения Единица лицензирования Named User Processor Количество лицензий Oracle


Слайд 24

Москва, 11 февраля 2003 г. Конференция Oracle Technology Day 25 Гарант-Парк-Интернет rco@metric.ru http://www.rco.ru http://demo.rco.ru


×

HTML:





Ссылка: