'

Организация ресурсного центра Grid

Понравилась презентация – покажи это...





Слайд 0

Организация ресурсного центра Grid А.Кирьянов, ПИЯФ


Слайд 1

С чего начать ? Быстрая сеть – необходимо иметь хорошую связь с другими центрами. Достаточное количество ресурсов – необходимо иметь в распоряжении хотя бы несколько ПК. Программное обеспечение – операционная система Scientific Linux (или Scientific Linux CERN) + ПО gLite (бывшее LCG-2). Работает (пока) только на i386. Есть релиз под amd64.


Слайд 2

Откуда взять ПО ? ОС: https://www.scientificlinux.org/distributions http://linux.web.cern.ch/linux/ Попросить диски у знакомых или у меня (3 CD) ? Всё остальное – через механизм APT (Automatic Porting Tool)


Слайд 3

Настройка APT Два новых источника пакетов – один для gLite, второй для сертификатов CA. /etc/apt/sources.list.d/glite.list # gLite RPMs rpm http://glitesoft.cern.ch/EGEE/gLite/APT/R3.0/ rhel30 externals Release3.0 updates /etc/apt/sources.list.d/eugridpma-ca.list # EUGridPMA CA RPMs rpm http://www.eugridpma.org distribution/igtf/current/apt accredited Есть зеркало в ПИЯФ: http://server.pnpi.nw.ru/apt/GLITE-3.0 http://server.pnpi.nw.ru/apt/CA


Слайд 4

Распределение узлов (идеальный вариант) Вычислительные узлы (WN) Узлы хранения данных (DPM) Пользовательский интерфейс (UI) Управляющий узел (CE, SE)


Слайд 5

Что можно сократить Не обязательно сразу устанавливать систему хранения данных или можно совместить её с управляющим узлом. Вычислительных узлов может быть всего несколько. Пользовательский интерфейс можно не устанавливать совсем.


Слайд 6

Шаги установки ПО Добиться загрузки ОС на всех узлах (либо установить, либо грузить по сети) Установить YAIM (набор скриптов для настройки и установки gLite): apt-get install glite-yaim Отредактировать файлы site-info.def и wn-list.conf в каталоге /opt/glite/yaim/examples Запустить установку из /opt/glite/yaim/scripts: install_node <site-info.def> <список узлов> Запустить конфигурацию оттуда же: configure_node <site-info.def> <список узлов>


Слайд 7

Основные типы узлов lcgCE – старый управляющий узел для вычислений gliteCE – новый управляющий узел для вычислений SE_dpm_mysql – управляющий узел для системы хранения данных SE_dpm_disk – узел хранения данных WN – вычислительный узел UI – пользовательский интерфейс


Слайд 8

Установка gLite Выполняется автоматически через yaim Возможна установка вручную – для всех типов узлов определены мета-пакеты: apt-get install lcg-CE apt-get install glite-CE apt-get install glite-SE_dpm_mysql apt-get install glite-WN apt-get install glite-UI


Слайд 9

Куда смотреть после установки ? Проверить настройки torque (команда qmgr). Проверить запуск задач через qsub. Посмотреть состояние очереди через qstat. Проверить, работает ли информационная система (на управляющем узле команда ldapsearch –x –h <local fqdn>:2170 –b “o=grid”) Проверить, создался ли grid-mapfile в каталоге /etc/grid-security


Слайд 10

Нужные процессы на узлах CE: globus-gatekeeper или edg-gatekeeper – интерфейс GRAM (принимает задания снаружи) in.ftpd или edg-gridftpd (на порту 2811) – интерфейс GridFTP (принимает файлы снаружи) grid-info-soft-register, bdii-update, bdii-fwd, всевозможные slapd – куски информационной системы edg-wl-logd, edg-wl-interlogd – части сервиса L&B pbs_server, pbs_sched или maui – локальная batch-система. многочисленные globus-job-manager – мониторы задач (по одному на задачу) SE: dpm, dpnsdaemon – интерфейс DPM (только на главном узле) srmv1, srmv2, rfiod, dpm.ftpd – интерфейсы SRM/RFIO/GridFTP WN: только pbs_mom


Слайд 11

Возникающие проблемы Нет данных (неполные данные) в информационной системе: проблема в настройке или в инфо-провайдерах, путь для поиска проблем: /opt/lcg/var/gip/ Задачи принимаются, но не исполняются: проблема в torque или в maui, внятная документация доступна на сайте Не работают команды передачи данных: проблема в настройках DPM, смотреть журналы /var/log/{dpm, dpm-gsiftp, dpns, frio, srmv1, srmv2}/*.log


Слайд 12

Возможные изменения стандартной конфигурации Версия torque старая (1.0.1), в ней нет встроенного планировщика, так что используется внешний (maui 3.2) Для небольших центров maui слишком сложна в настройке, она далеко не всегда работает очевидным образом… Можно установить torque 2.0 со встроенным планировщиком (эквивалент старого OpenPBS) http://www.clusterresources.com/pages/products/torque-resource-manager.php Выключить всё, что имеет в названии rgma, apel, fmon – это части системы мониторинга и аккаунтинга, они могут пригодиться только официальным сайтам EGEE


Слайд 13

Безопасность Настроить firewall, список нужных портов можно посмотреть в документе: http://lcgdeploy.cvs.cern.ch/cgi-bin/lcgdeploy.cgi/lcg2/docs/lcg-port-table.pdf Проверять, обновляются ли CRL для сертификатов в /etc/grid-security/certificates


×

HTML:





Ссылка: