'

Высокопроизводительные вычисления в биоинформатике

Понравилась презентация – покажи это...





Слайд 0

13.01.2016 Высокопроизводительные вычисления в биоинформатике 1 Высокопроизводительные вычисления в биоинформатике


Слайд 1

13.01.2016 Высокопроизводительные вычисления в биоинформатике 2 Особенности предметной области Большой темп накопления знаний. Появление новых высокопроизводительных экспериментальных установок. Большой темп роста числа гетерогенных источников данных - баз данных. Тенденция к усложнению моделей предметной области. Расширение области применения молекулярно-генетических знаний: биомедицина, фармакология, нанобиоинженерия и т.д. Необходимость решать задачи, требующие больших вычислительных ресурсов. Необходимость решать задачи, требующие интеграции больших объемов гетерогенных источников данных.


Слайд 2

13.01.2016 Высокопроизводительные вычисления в биоинформатике 3 Системная биология Цель - изучение организации и механизмов развития и функционирования живых систем на основе информации, закодированной в их геномах, в ходе их взаимодействия с окружающей средой. Описание в базах данных и интеграция огромных объемов гетерогенной экспериментальной информации, характеризующей живые системы на различных уровнях их структурно-функциональной организации Крупномасштабный анализ экспериментальных данных Построение математических моделей организации и функционирования живых систем Предсказание новых особенностей организации и функционирования живых систем Планирование экспериментов по проверке результатов предсказания Проведение экспериментов и получение новых данных и знаний СИСТЕМНАЯ БИОЛОГИЯ ВОЗНИКЛА, КОГДА ОНА СТАЛА ПРЕДСКАЗАТЕЛЬНОЙ НАУКОЙ


Слайд 3

13.01.2016 Высокопроизводительные вычисления в биоинформатике 4 Системная биология – интегративная наука


Слайд 4

13.01.2016 Высокопроизводительные вычисления в биоинформатике 5 Экспериментально-вычислительная база системной биологии Кластер «Системная биология» Новосибирского научного центра СО РАН Геномика: автоматический секвенатор Протеомика: массовый анализ белков и метаболитов ТРАНСКРИПТОМИКА: производство биочипов высокой плотности и анализ профилей экспрессии генов Высокопроизводительные вычислительные Клеточная биология: лазерный сканирующий микроскоп LSM510 META Прижизненная томография экспериментальных животных


Слайд 5

13.01.2016 Высокопроизводительные вычисления в биоинформатике 6 Объемы молекулярно-биологических данных и комбинаторная сложность задач биоинформатики


Слайд 6

13.01.2016 Высокопроизводительные вычисления в биоинформатике 7 Список некоторых наиболее затратных задач биоинформатики и потребности в вычислительных и информационных ресурсах


Слайд 7

13.01.2016 Высокопроизводительные вычисления в биоинформатике 8 Анализ потребности в Супервычислениях Клеточные процессы Клеточные сообщества Экологические процессы Метаболические пути Необходимые вычислительные ресурсы Уровни описания биосистем Предсказание структуры белка Сравнение геномов Моделирование динамики белковых комплексов Молекулярный докинг и моделирование взаимодействия Сравнительный анализ белков Моделирование генных сетей 1 10 100 1000 Tflops Моделирование клетки Моделирование эволюционных процессов Макромоделирование экосистем Моделирование метаболических путей Молекулярная машина Асемблирование генома Макромолекулы Широкомасштабное моделирование экосистем Моделирование динамики паразитарной инфекции на молекулярно-генетическом уровне Моделирование органа Макромоделирование микробных сообществ


Слайд 8

Технологии ускорения решения задач 2. Использование специальных процессоров: FPGA (Field Programmable Gate Array) MPPA (Massively Parallel Processor Array) GPU (Graphics Processing Unit) 1. Использование высокопроизводительных вычислительных кластеров или суперкомпьютеров: Распараллеливание по данным Распараллеливание по процессам 3. Использование гибридных вычислительных систем, объединяющих в вычислительных узлах CPU вместе со спецпроцессорами, GPU или FPGA. Пример: IBM Roadrunner. Процессор PowerXCell 8i.


Слайд 9

13.01.2016 Высокопроизводительные вычисления в биоинформатике 10 GPU демонстрируют хорошие результаты при: Параллельной обработке данных Когда одна и та же последовательность действий, применяется к большому объёму данных Расчетах с высокой плотностью арифметики Когда велико отношение числа арифметических инструкций к числу обращений к памяти Когда эффективно GPU? Одни и те же вычисления означают меньшие требования к управлению исполнением (flow control) Высокая плотность арифметики и большой объём данных означают возможность покрытия латентности памяти вычислениями (вместо больших кэшей на CPU)


Слайд 10


Слайд 11

Генетический алгоритм оптимизации. Монте-Карло (300-1000) Анализ текстов, поиск регулярных выражений. (10-35). Сравнительная геномика. Филогения (15) Smith Waterman, BLAST, ClustalW (30-70) Скрытые марковские процессы. HMMer (25-30) Множественное выравнивание (30). распознавание образов(100), К-ближайших соседей (470), SVM(150), Нейросети (15); Алгоритмы на графах (20) Дискретное моделирование биологических систем (200) Молекулярная динамика (100-150), Молекулярный докинг (16) Молекулярный фолдинг (100) Медицинская томография (300) Анализ изображений (100) Решение систем линейных уравнений (50) Сингулярная декомпозиция (60) Примеры приложений GPU CUDA и их эффективность


Слайд 12

Благодарю за внимание!


Слайд 13

13.01.2016 Высокопроизводительные вычисления в биоинформатике 14 Компьютерный анализ результатов секвенирования и ассемблирование полноразмерных геномов. Структурно-функциональная аннотация полногеномных последовательностей прокариот и эукариот. Сравнительный анализ полногеномных последовательностей. Молекулярная эволюция. Филогения. Широкомасштабный компьютерный анализ протеомов. Компьютерный анализ и моделирование структурно-функциональной организации ДНК, РНК, белков и их комплексов. Функциональная аннотация белковых макромолекул. Молекулярный скрининг. Молекулярный докинг и молекулярный дизайн медицинских препаратов. Дизайн самоорганизующихся ДНК/РНК наноструктур. Молекулярная эпидемиология. Анализ полиморфизмов. Компьютерное моделирование сложных молекулярно-генетических систем и процессов в норме и патологии. Компьютерно-информационная поддержка экспериментального дизайна искусственных бактериальных молекулярно-генетических конструкций. Компьютерный анализ изображений. Классы задач, решаемых в СО РАН


Слайд 14

13.01.2016 Высокопроизводительные вычисления в биоинформатике 15 CUDA™ Toolkit – среда разработки для GPU, основанная на языке C CUDA (Compute Unified Device Architecture) -- это технология от компании NVidia, предназначенная для разработки приложений для массивно-параллельных вычислительных устройств (в первую очередь для GPU начиная с GeForce 8800, а текже Quadro и Tesla. Основными плюсами CUDA являются ее бесплатность (SDK для всех основных платформ свободно скачивается с developer.nvidia.com), простота (программирование ведется на "расширенном С") и гибкость. GPU – сопроцессор для CPU (хоста) У GPU есть собственная память GPU с CUDA работает либо как гибкий потоковый процессор, где тысячи вычислительных программ, называемых потоками, или threads , вместе решают сложные задачи, либо как потоковый процессор в специфических приложениях, например, для вывода изображения, где потоки не связаны между собой. GPU способен одновременно обрабатывать множество потоков данных одним и тем же алгоритмом Для осуществления расчётов при помощи GPU хост должен осуществить запуск вычислительного ядра, которое определяет конфигурацию GPU в вычислениях и способ алгоритм получения. Процессы GPU (в отличие от CPU) очень просты и многочисленны (~ 1000 для полной загрузки GPU)


×

HTML:





Ссылка: