'

СПО для Больших Данных – Большой Риск или Большая Выгода?

Понравилась презентация – покажи это...





Слайд 0

СПО для Больших Данных – Большой Риск или Большая Выгода? Денис Серов 12 апреля 2012


Слайд 1

Source: 2011 IDC Digital Universe Study В ЭТОМ ДЕСЯТИЛЕТИИ ЦИФРОВАЯ ВСЕЛЕННАЯ ВЫРАСТЕТ В 50 РАЗ ОТ 0.9 ДО 44 ЗЕТАБАЙТ


Слайд 2

90% ЦИФРОВОЙ ВСЕЛЕННОЙ НЕСТРУКТУРИРОВАНО Source: 2011 IDC Digital Universe Study


Слайд 3

Происхождение Больших Данных Geophysical Exploration Medical Imaging Video Surveillance Mobile Sensors Video Rendering Gene Sequencing Smart Grids Social Media Electronic Payments


Слайд 4

БОЛЬШИЕ ДАННЫЕ МЕНЯЮТ БИЗНЕС


Слайд 5

Феномен Больших Данных На порядки больше, чем в традиционных СУБД Сотни ГБайт – это low end Больших Данных Обычно – от ТБайтов до ПБайтов Данные разного рода Обрабатывается весь объем данных Один компьютер точно с этим не справится Задачу обработки можно решать параллельно масштабируемый кластер распределенная файловая система Большие Данные - это сколько?


Слайд 6

Традиционные платформы для аналитики Только структурированные данные Вертикальное масштабирование Анализ Тбайтов старых данных


Слайд 7

Что если Аналитика будет подобна Google ? 1,000,000,000 запросов в день 900мс среднее время обработки запроса


Слайд 8

Новая Платформа для Аналитики Больших Данных Горизонтальное масштабирование Анализ Петабайт текущих данных Структурированные и неструктурированные данные


Слайд 9

Зачем Вам параллельные вычисления? Потому что закон Мура не помогает решить проблему! Даже сотни и тысячи ядер в одном сервере не способны обработать Большие Данные Наращивание производительности и емкости сложно Все решается при переходе к параллельным вычислениям


Слайд 10

Interconnect СУБД EMC Greenplum Массивно параллельная обработка данных - MPP Экстремальная масштабируемость Автоматическая параллелизация Онлайн-расширение http://greenplum.org Data Loading Interconnect Data Loading


Слайд 11

Open Source решения для Больших Данных Условно бесплатный доступ к коду Возможность модификации под свои нужды Больше возможностей разработки Экспертиза сообщества СПО Быстрая отладка кода Хочется попробовать, бесплатно и прямо сейчас


Слайд 12

Open Source решения для Больших Данных Проект может затянуться Неверный расчет ресурсов/людей/денег Срыв проекта под одного заказчика Резкая смена конъюнктуры рынка Невозможность внедрения в корпоративной среде Бесплатный сыр бывает только в мышеловке?


Слайд 13

Hadoop – open source среда для Больших Данных


Слайд 14

Hadoop – проблемы масштабирования В среде с одним сервером нет проблем обработки аппаратного отказа ? Выполнение параллельных вычислений – огромная трудность Работа с большим объемом данных требует распределения частей задачи по множеству машин для параллельного выполнения Вероятность отказа хотя бы одного из N узлов P1/n=1-(1-P1)^N=N*P1 Параллельная обработка данных повышает риск сбоев


Слайд 15

Hadoop – проблемы масштабирования Частичный или полный отказ внутренней сети Запаздывание прихода данных Сбои отдельных узлов в связи с перегревами, крэшами, отказами, недостатком памяти или места на дисках Повреждение данных при сохранении или передаче Рассинхронизация часов Не отпущенные вовремя блокировки итд Сбои при параллельной обработке – обычное дело


Слайд 16

Hadoop – проблемы масштабирования В случае сбоя, оставшаяся часть распределенной системы должна восстановить и продолжить нормальную работу Hadoop спроектирован таким образом, чтобы гарантированно обеспечивать стабильность работы и целостность данных в условиях всевозможных сбоев Требование №1


Слайд 17

Hadoop – проблемы масштабирования Успешная распределенная система должна эффективно управлять ресурсами разных узлов: Процессорной мощностью Оперативной памятью Местом на жестких дисках Сетевая пропускная способность Нadoop не только может поддерживать работу кластера как единого целого, но и выделяет при этом максимум ресурсов основным вычислениям. Требование №2


Слайд 18

Hadoop – проблемы масштабирования Система должна обеспечивать эффективную синхронизацию между узлами и поддерживая вычислительный процесс даже в случае сбоя. Hadoop спроектирован так, что при отказе одного из N узлов – потеря производительности составляет около 1/N %, а работа потерянного узла автоматически перезапускается наиболее оптимальным образом Требование №3


Слайд 19

Архитектура Hadoop • HDFS - Hadoop Distributed File System • Hive – язык запросов к данным в распределенном хранилище данных на базе HDFS • Pig – язык параллельной обработки данных в среде MapReduce • Hbase – база данных Hadoop с линейной и распределенной масштабируемостью • Zookeeper – высоконадежный сервис централизованной координации распределенного выполнения заданий Технология и ее преимущества


Слайд 20

Hadoop на EMC Greenplum Open Source разработка Масштабная распределенная инфраструктура для пакетной обработки. Масштабируемость от десятков до сотен и тысяч узлов Эффективное распараллеливание работы с Большими Данными http://greenplum.org Платформа для параллельной обработки Больших Данных


Слайд 21

Greenplum – это гибкость и выбор Программно аппаратный комплекс Greenplum Наращивается инкрементами по ? шкафа Готовые функциональные модули Быстрое развертывание Программные версии Greenplum Greenplum Database, Hadoop и Chorus на Вашем оборудовании x86 архитектуры Не лицензируется на тестовые окружения Возможность приобретения лицензии или подписки


Слайд 22

Старые процессы бизнес-аналитики Административные преграды Без коллаборации Реактивный стиль работы


Слайд 23

Что если коллаборация аналитиков станет подобна Facebook? 800,000,000 активных пользователей 900,000,000 меняющихся объектов 250,000,000 новых снимков в день


Слайд 24

Новые процессы аналитики Гибкость и изменяемость Прозрачная коллаборация


Слайд 25

Greenplum Chorus Среда для коллаборации аналитиков Больших Данных http://openchorus.org


Слайд 26

Организации должны измениться Бизнес-пользователь Бизнес ИТ департамент Администратор СУБД Бизнес-аналитик


Слайд 27

Превратившись в команду Бизнес-пользователь Администратор платформы Бизнес-аналитик Исследователи данных


Слайд 28

MADlib – еще одна возможность для СПО сообщества Библиотека встраиваемых функций для аналитики Greenplum Создана академиком аналитиком консультантом по СУБД … и двумя hard-core разработчиками СУБД Magnetic, Agile, Deep http://madlib.net


Слайд 29

MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики MADlib открытая библиотека для масштабируемой встроенной аналитики. Параллельная математическая, статистическая обработка Машинное обучение Структурированные и неструктурированные данные Миссия MADlib: развитие массовых навыков параллельной масштабируемой аналитики Больших Данных


Слайд 30

MADlib - возможность для СПО сообщества Библиотека встраиваемых функций для аналитики


Слайд 31

Гибкая аналитика это … Структурированные и неструктурированные данные, Анализ Петабайт текущих данных, Горизонтальная масштабируемость Самообслуживание, Гибкость, Прозрачность, Коллаборация в реальном времени Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных


Слайд 32

На основе ПО EMC Greenplum Открытая библиотека встраиваемых функций для скоростной параллельной обработки Данных http://madlib.net С


Слайд 33

ИТОГИ Использование СПО для Больших Данных это не только Большая Выгода, но и риск Чтобы снизить риск, нужно выбрать оптимальную платформу Архитектурная надежность Параллельная обработка Масштабируемость Возможность поддержки корпоративного класса Возможность предварительно протестировать EMC предлагает Open Source сообществу: Greenplum – СУБД и платформа для Больших Данных Hadoop – платформу для неструктурированных Данных Chorus – платформа для коллаборации аналитиков MADLib - набор встроенных аналитических функций


Слайд 34


×

HTML:





Ссылка: