'

Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW )  

Понравилась презентация – покажи это...





Слайд 0

Процесс создания системы интеграции данных (СИД) в хранилище данных (на примере хранилища, построенного по технологии IBM BDW )   Позин Борис Аронович, технический директор, д.т.н., профессор Лычагин Кирилл Анатольевич, начальник сектора ЗАО «ЕС-лизинг» МГУ, Москва, 2012 1


Слайд 1

Структура доклада 2


Слайд 2

СИД Система интеграции данных в Хранилище данных 3 Источники Extract Transform Load Область первичных данных Область предварительной обработки данных (Staging Area)


Слайд 3

Процесс создания СИД 4 Discover – cбор требований со стороны пользователей, определение источников данных Analyze – анализ требований, анализ источников, анализ целевой модели Define – выбор архитектуры СИД, создание алгоритмов преобразования данных (спецификаций), описание различных вспомогательных алгоритмов, проектирование области предварительной обработки (Staging Area) Develop – Разработка и реализация ETL заданий, согласно спецификациям. Тестирование. Deploy – Внедрение СИД. Optimize , Manage – Анализ и оптимизация ETL заданий на основе данных о использование системы в промышленной среде


Слайд 4

Результат процесса создания 5 Исполняемый код Метаданные


Слайд 5

6 Технические метаданные источников Метаданные области первичных данных Метаданные, описывающие алгоритмы преобразования Метаданные ETL заданий Метаданные Staging Area Модель требований пользователей Метаданные, описывающие бизнес- процессы в источниках Описание взаимозависимости между источникам Технические метаданные Виды метаданных СИД Бизнес - метаданные Логи работы СИД Статистика производительности Статистические показатели обработанных данных Операционные метаданные


Слайд 6

Актуальные проблемы разработки СИД СИД плохо отчуждаема, поскольку плохо описаны структура и состав метаданных, характеризующих преобразование данных в процессе интеграции Обеспечение быстрого предоставления результата бизнес – пользователям при изменении состава поступающих данных, ориентация на сокращение сроков разработки Отсутствие единой архитектуры СИД 7


Слайд 7

Пример метаданных СИД 8 Логическая и физическая модели данных источников, области первичных данных и Staging Area


Слайд 8

Пример метаданных СИД Описание алгоритмов преобразования 9


Слайд 9

Пример метаданных СИД Проект ETL заданий и исполняемый код 10


Слайд 10

11 Цели создания потоковой архитектуры совместно с BDW Определение дополнительных бизнес и технических метаданных облегчающих процесс сопровождения и развития и повышающих отчуждаемость системы Разработка единой архитектуры СИД, которая бы эффективно использовала особенности BDW Упорядочение этапов «Проектирование» (Define) и «Разработка» (Develop) для более эффективной и целенаправленной организации работы команды разработчиков


Слайд 11

IBM Banking Data Warehouse BDW – методология описания бизнес деятельности банков и построения хранилища данных для их нужд 12 Правила перехода от концептуальной к логической модели Правила перехода от логической к физической модели


Слайд 12

Концептуальная модель Иерархическая структура взаимосвязанных понятий, описывающих бизнес – деятельность банка 13 9 Концептов верхнего уровня


Слайд 13

Концептуальная модель 14


Слайд 14

Особенности BDW Позволяет бизнес - пользователю общаться с IT специалистом на «одном языке» Модели строятся на основании лишь требований бизнес – пользователей Концептуальная, логическая и физическая модели устойчивы к расширению состава поступающих данных 15


Слайд 15

Модель данных ХД как отправная точка в создании СИД 16


Слайд 16

Идея потоковой архитектуры 17 СИД Источники Область первичных данных Поток обработки данных 1 Поток обработки данных 2 Поток обработки данных 3 Граница влияния источников Использование данных из другого потока


Слайд 17

Принцип разделения СИД на потоки 18 Концептуальная модель Логическая модель Физическая модель 1 x Поток обработки данных Концептуальный объект (набор понятий) Набор логических сущностей и атрибутов Набор физических сущностей и атрибутов


Слайд 18

Стандартные операции над данными 19 Поиск новой информации Формирование значений атрибутов: Создание суррогатных ключей Преобразование статичных справочников Формирование информационных атрибутов Генерация технических атрибутов Формирование связей Формирование физических таблиц


Слайд 19

Компоненты потоков 20 1. Предварительное преобразование (t0) – сбор из источников всех данных, относящих к объекту; 2. Поиск изменений (d) – поиск новых данных; 3. Преобразование кодов (v) - преобразование значений классификаторов из источника в значения, используемые в ХД; 4. Создание суррогатных ключей (k) – назначение на основе натуральных бизнес - ключей суррогатных ключей и построение справочника соответствия всех суррогатных ключей бизнес - ключам в различных источниках 5. Построение связей (vk) – назначение корректных внешних ключей по бизнес - ключам; 6. Конечное преобразование (t) – «раскладывание» данных по конечной структуре физических таблиц ХД и формирование технических атрибутов; 7. Загрузка данных (l) - помещение данных в базу данных ХД.


Слайд 20

Общая архитектура 21 Граница влияния источников Staging Area


Слайд 21

Свойства источников Одновременное поступление данных из всех источников Экземпляры объекта идентифицируются простым идентификатором (строкой или числом) Локальные справочники в источниках содержат атомарные значения 22


Слайд 22

Свойство расширяемости и устойчивости потоковой архитектуры к изменению входных данных 23 Граница влияния источников Staging Area


Слайд 23

Преимущества и недостатки потоковой архитектуры Преимущества Устойчивость к расширению состава поступающих данных Устойчивость к изменению уже обрабатываемых данных Высокая степень параллелизма и масштабируемость Стандартизация компонентов потоков 24 Недостатки Возможное увеличение объема обрабатываемых данных Возможная сложность компонента «Предварительное преобразование»


Слайд 24

Метаданные в потоковой архитектуре 25 Описание объектов: концептуальная, логическая и физическая модели Алгоритмы работы с объектами: Идентификация объектов Спецификация компонента «Предварительное преобразование» Описание границы влияния систем источников Шаблоны компонентов Шаблоны потоков Предопределенная структура Staging Area и ее наполнение


Слайд 25

Процесс создания СИД в потоковой архитектуре Процесс создания СИД более структурированный и целенаправленный - более короткие промежутки при развитие системы 26


Слайд 26

Выводы 27 Использование Потоковой архитектуры позволяет: Улучшить описание процессов интеграции данных в СИД за счет дополнительных метаданных, и тем самым облегчить отчуждаемость системы, упросить процессы сопровождения и развития Сделать процесс создания СИД более структурированным и целенаправленным, уменьшив тем самым сроки предоставления новой информации бизнес -пользователям Использование Потоковой архитектуры совместно с методологией BDW позволяет: Ускорить создание СИД Сделать СИД устойчивой к расширению состава поступающей информации, тем самым снизить затраты на развитие.


Слайд 27

Спасибо! 28 Вопросы ?


×

HTML:





Ссылка: