'

Л 1: Введение: информационные технологии анализа данных

Понравилась презентация – покажи это...





Слайд 0

Л 1: Введение: информационные технологии анализа данных доцент кафедры Информационные системы и технологии к.т.н., доцент Шлаев Дмитрий Валерьевич 1


Слайд 1

Введение Современные информационные технологии анализа данных широко используются в крупномасштабных корпоративных информационных системах (КИС) крупномасштабных предприятий и организаций. КИС включают подсистемы, построенные на основе концепций систем поддержки и принятия решений (System for Support of Decision - SSD). В состав КИС входят проблемно-ориентированные хранилища данных -Data Ware House (DW), обеспечивающие централизованное хранение данных, источниками которых являются различные базы данных систем оперативной обработки данных (On-Line Transaction Processing, OLTP), используемых для автоматизации бизнес-процессов корпоративной информационной системы, а также внешние источники. Обычно хранилища данных создаются путем конвертирования и совместной обработки источников данных, хранимых под управлением различных СУБД на разнородных аппаратных платформах. Помещаемые в DW данные должны отвечать требованиям полноты, целостности, достоверности и актуальности для целей анализа. Применительно к хранилищам данных, имеющих хранимых данных, используются специфические технологии хранения данных. 2


Слайд 2

Структура хранилища данных 3


Слайд 3

Метаданные содержат всю необходимую информацию о структуре, размещении и способах преобразования источников данных, обеспечивают взаимодействие компонентов хранилища данных. Метаданные имеют, как правило, объектное представление. В КИС широко применяются технологии OLAP (On-Line Analytical Processing) - совокупность средств многомерного анализа данных хранилищ. Создаваемые OLAP-приложения должны обеспечивать быстрый анализ разделяемой многомерной информации. Разработан специальный тест FASMI (Fast Analysis Sheared Multidimensional Information) для OLAP-приложений, которые должны обеспечивать: Многомерность представления данных. Санкционированный доступ пользователей к данным для целей анализа. Получение необходимой для анализа информации. Эффективность выполнения анализа информации по всем аспектам. Выполнение стандартных видов обработки числового и статистического анализа данных. 4


Слайд 4

Первые два уровня представлены во всех OLAP-средствах. Третий уровень наиболее часто реализуется средствами реляционных СУБД, а многомерные запросы транслируются в запросы на языке SQL (Structured Query Language). К представителям OLAP-средств относятся многомерные серверные СУБД (Microsoft OLAP Server, Oracle Express Server и др.), OLAP-клиенты в составе различных программных средств, в том числе Microsoft Office 2000. В КИС широко применяются и информационные технологии интеллектуального анализа данных - Data Mining (DM), основанные на методах количественного анализа данных, поиске функциональных и логических закономерностей, построении моделей прогнозирования новой информации и т.п. Процесс "получение знания" (knowledge discovery) информационных технологий DM представлен на следующем слайде 5


Слайд 5

Процесс "получение знания" 6


Слайд 6

В базе данных хранятся все «исторические» данные об объектах. Обычно такая информация не оптимизирована для нужд решаемой задачи. Для этого делается выборка данных, их «очистка» и предварительная обработка (поиск и исправление ошибок, проверка согласованности данных и т. п.). Данные обычно трансформируются (преобразовываются в иной формат), «обогащаются» (добавление дополнительной информации для увеличения точности и ценности результатов проводимого анализа). Собственно исследование данных – Data Mining выполняется с помощью методов, моделей, которые применяются для описания зависимостей и отношений в данных, прогнозирования дальнейшего их развития и т. п. Информационные технологии DM широко используют различные математические и эвристические модели, экспертные оценки и формализованные критерии оценки этих моделей. 7


Слайд 7

Представление данных - это этап, на котором модель приобретает вид, удобный для дальнейшего использования с помощью средств визуализации и манипулирования данными, объяснения и интерпретации результатов для получения нового знания. Информационные технологии DM выявляют закономерности и выводят правила, которые можно использовать для принятия решений и прогнозирования их последствий. На пересечении искусственного интеллекта, статистики и теории баз данных в рамках DM возникло новое направление KDD (Knowledge Discovery in Databases) - обнаружение знаний в базах данных), которое актуально также и применительно к хранилищам данных в корпоративных информационных системах. 8


Слайд 8

Стандартные закономерности Ассоциация - нахождение постоянных составляющих (трендов), которые можно использовать для объяснения событий (например, выбор товаров и услуг, определение уровней запасов, схем складирования и др.). Последовательность - установление временных серий последовательных действий (транзакций), правил выполнения отдельных транзакций. Классификация - выявление признаков, характеризующих группу объектов, распределение объектов по группам для моделирования поведения объектов, прогнозирования значений свойств объектов и др. Кластеризация - распределение по группам или сегментам. В отличие от классификации, кластеры формируются в процессе анализа. Прогнозирование - предсказания будущих значений непрерывно изменяющихся переменных и др. 9


Слайд 9

Классификация программных средств анализа Предметно-ориентированные аналитические системы Нейронные сети Системы рассуждений (case based reasoning – CBR) на основе аналогичных случаев Деревья решений (decision trees) Нелинейные регрессионные методы Специализированные программные средства методо–ориентированной направленности 10


Слайд 10

Предметно-ориентированные аналитические системы Наиболее типичный представитель – системы анализа финансовых рынков, построенные на основе методов прогноза динамики цен, различных эмпирических моделях динамики рынка. Эти системы относительно дешевы (до 500 долл.), но большинство их ориентировано на западный рынок, например, MetaStock (компания Equis International), SuperCharts (Omega Research), Candlestick Forecaster (IPTC), Wall Street Money (Market Arts). 11


Слайд 11

Нейронные сети Используется архитектура многослойного персептрона: нейрон верхнего уровня соединен по входу с выходами нейронов нижних уровней. На нейроны нижнего слоя подаются входные параметры, на основе которых вырабатываются решения. На выходе нейрона самого верхнего слоя вырабатывается некоторое значение – реакция нейронной сети на введенные значения входных параметров. Нейронная сеть предварительно «обучается» на известных значениях входных параметров и правильных ответах, в результате чего подбираются веса межнейронных связей, обеспечивающие наибольшую близость ответов к известным правильным ответам. 12


Слайд 12

Системы рассуждений (case based reasoning – CBR) на основе аналогичных случаев Системы CBR находят в прошлом близкие аналоги и выбирают тот же ответ, который был для них правильным. Эти системы не создают каких-либо моделей или правил, а обобщают предыдущий опыт: Kate Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США). Деревья решений (decision trees) Применяются для решения задач классификации, создают иерархическую структуру правил типа "ЕСЛИ... ТО..." для распределения множества случаев по отдельным классам, подклассам, видам и т.п. 13


Слайд 13

Нелинейные регрессионные методы Поиск зависимости целевых переменных от остальных в форме функционала определенного вида Нелинейные регрессионные методы Math Works Matlab, Maple, Statistica, Mathematica и др. Как правило, приложения Microsoft Office наиболее часто выступают в качестве «клиентов» OLAP или DM. Это обеспечивается средствами интеграции. Компонентная модель (Component Object Model, COM) приложений Microsoft Office позволяет интегрировать в них функции обработки данных различных программ в виде дополнительных пользовательских команд или специальных надстроек. 14


Слайд 14

Специализированные программные средства методо–ориентированной направленности 15


Слайд 15

Надстройки Excel Надстройки Data Mining к приложению Microsoft Office Excel 2007 для извлечения и обработки данных 16


×

HTML:





Ссылка: