Руководство для пользователей Введение и краткий обзор структуры grid



Скачать 219,93 Kb.
Дата18.10.2016
Размер219,93 Kb.

Экспериментальный GRID-сегмент

МГУ им. М.В. Ломоносова



Руководство для пользователей

Введение и краткий обзор структуры GRID

GRID это распределенная программно-аппаратная компьютерная среда, с принципиально новой организацией вычислений и управления потоками заданий и данных. Такая компьютерная инфраструктура предназначена для объединения вычислительных мощностей различных организаций. Более того, на основе технологии GRID предполагается формирование региональных и даже национальных вычислительных компьютерных инфраструктур для создания объединенных интернациональных ресурсов, предназначенных для решения крупных научно-технических задач. Название «GRID» объясняется некоторой аналогией с электрическими сетями (power grid), предоставляющими всеобщий доступ к электрической мощности. Как и в случае электрических сетей, в GRID предполагается интегрировать большой объем географически удаленных компьютерных ресурсов. В идеальном случае пользователя не будет интересовать где находятся используемые им ресурсы.

Важнейшим компонентом GRID-инфраструктуры является промежуточное программное обеспечение (middleware), которое предназначено управлять заданиями, обеспечивать безопасный доступ к данным большого объема в универсальном пространстве имен, перемещать и тиражировать данные с высокой скоростью из одного географически удаленного узла на другой и организовывать синхронизацию удаленных копий.

В будущем предполагается обеспечить общедоступный, надежный и сравнительно простой доступ к вычислительным GRID-структурам, а также к устройствам хранения и обработки данных. Если это удастся сделать, влияние GRID-технологий на развитие вычислений окажется очень существенным.


Цели создания инфраструктуры GRID


Среди основных направлений использования GRID на данный момент можно выделить:

  • организация эффективного использования ресурсов для небольших задач, с утилизацией временно простаивающих компьютерных ресурсов;

  • распределенные супервычисления, решение очень крупных задач, требующих огромных процессорных ресурсов, памяти и т.д.;

  • вычисления с привлечением больших объемов географически распределенных данных, например, в метеорологии, астрономии, физике высоких энергий;

  • коллективные вычисления, в которых одновременно принимают участие пользователи из различных организаций .


Краткая характеристика некоторых проектов по распределенным вычислениям в Интернет и GRID-проектов





  • Distributed.net.. Одно из самых больших объединений пользователей Интернет, предоставляющих свои компьютеры для решения крупных переборных задач. Основные проекты связаны с задачами взлома шифров (RSA Challenges). С момента начала проекта в нем зарегистрировались 191 тыс. человек. Информация на сайте http://www.distributed.net/

  • GIMPS (Great Internet Mersenne Prime Search). Поиск простых чисел Мерсенна (т.е. простых чисел вида 2P-1). С начала проекта было найдено 4 таких простых числа. Информация на сайте http://www.mersenne.org/

  • SETI. Проект SETI (Search for Extraterrestrial Intelligence) - поиск внеземных цивилизаций с помощью распределенной обработки данных, поступающих с радиотелескопа. Присоединится может любой желающий. Для участия в проекте зарегистрировались около 920 тыс. человек. Информация на сайте http://setiathome.ssl.berkeley.edu

  • TERRA ONE. Коммерческий проект TERRA ONE компании Cerentis ставит своей целью объединение множества персональных компьютеров, подключенных (или периодически подключаемых) к Интернет, для решения задач анализа информации, предоставляемой различными заказчиками. Клиентские компьютеры (TerraProcessor), подключенные к TERRA ONE, используются во время простаивания с помощью screen-saver'а. За обработку информации владельцы ПК получают возможность покупки в Интернет-магазинах - им начисляются "кредиты" (TerraPoints) за каждую единицу обработанной информации. Информация на сайте www.cerentis.com

  • Legion. Проект Legion: A Worldwide Virtual Computer университета Вирджинии. Цель - разработка объектно-ориентированного программного обеспечения для построения виртуальных мета-компьютеров, включающих до нескольких миллионов индивидуальных хостов, объединенных высокоскоростными сетями. Информация на сайте http://legion.virginia.edu/

  • Condor. Система Condor разрабатывается в университете шт. Висконсин (Madison). Condor распределяет независимые подзадачи по существующей в организации сети рабочих станций, заставляя компьютеры работать в свободное время (то есть в то время, когда они простаивали бы без своих пользователей). Программное обеспечение системы Condor доступно бесплатно. Информация на сайте http://www.cs.wisc.edu/condor/

  • Globus. Проект реализуется в Argonne National Lab. Цель The Globus Project - построение инфраструктуры для "computational grids", включающей в себя вычислительные системы, системы визуализации, экспериментальные установки. В рамках проекта проводятся исследовании по построению распределенных алгоритмов, обеспечению безопасности и отказоустойчивости мета-компьютеров. Более подробно см. ниже и на сайте http://www.globus.org.

  • EU Data GRID (EDG) - см. ниже.

Проект EU Data GRID (EDG)

Многие из перечисленных в предыдущем разделе проектов (а также и другие) могут быть в той или иной мере полезны в контексте крупного европейского проекта EU Data Grid (http://www.eu-datagrid.org) для физики высоких энергий, биоинформатики и системы наблюдений за Землей. Общим во всех этих исследованиях является разделение данных по различным базам, распределенным по всем континентам. Основная их цель — улучшение эффективности и скорости анализа данных посредством интеграции глобально распределенных процессорных мощностей и систем хранения данных, доступ к которым будет характеризоваться динамическим распределением по GRID-инфрастуктуре, что предполагает управление репликацией и кэшированием.



Проект включает в себя несколько рабочих пакетов:

  • создание для всех рассматриваемых отраслей (физики высоких энергий, биологии и наблюдения Земли) приложений, осуществляющих прозрачный доступ к распределенным данным и высокопроизводительным вычислительным ресурсам;

  • управление рабочей загрузкой (распределенное планирование и управление ресурсами);

  • управление данными (создание интегрированного инструментария и инфраструктуры промежуточного слоя для согласованного управления и разделения петабайтных объемов данных c эффективным использованием ресурсов);

  • мониторинг (доступ к информации о состоянии и об ошибках в grid-инфраструктуре);

  • управление кластерами, состоящими из тысяч вычислительных узлов;

  • создание виртуальной частной сети, объединяющей вычислительные ресурсы и ресурсы данных, участвующие в отладке grid-инфрастуктуры;

  • управление массовой памятью (создание глобального grid-интерфейса к существующим системам управления массовой памятью).

В качестве основы промежуточного программного обеспечения для проекта EU Data Grid выбран набор инструментальных средств Globus.

Набор инструментальных средств GLOBUS


В настоящее время Globus в большей степени представляет собой инфраструктуру сервисов и набор инструментов для разработки распределенных приложений, чем замкнутый комплект утилит для пользователей. К основным видам сервисов, включенных в Globus отнесятся следующие.

  • Cвязь. Взаимодействие в GRID-среде может происходить в самых разных режимах: от передачи сообщений точка-точка до широкого вещания, причем, такие приложения как, например, управление инструментами могут одновременно использовать несколько режимов. Применяемые в Интернет протоколы не вполне удовлетворительны: велики накладные расходы, потоковая модель TCP непригодна для ряда режимов, а интерфейсы не позволяют контролировать все параметры. Идея альтернативных интерфейсов связи (API Nexus) системы Globus состоит в том, чтобы накрыть сверху нижележащие протоколы и методы, оставляя за приложением возможность выбора, одновременно обеспечивая автоматическую селекцию. Nexus вводит понятие коммуникационной связи, понимаемой как совокупность начальной и конечной точки сетевого соединения. Операция передачи инициируется путем запроса на удаленный сервис (RSR) и пересылке данных к ассоциированным конечным точкам и, в конечном счете, к открывшим их процессам. С одной начальной точкой может быть связано несколько конечных и, наоборот, поэтому могут быть сконструированы сложные коммуникационные структуры. В общем контексте GRID-среды предполагается наличие базы данных с динамически собираемой информацией о сети, необходимой для правильного выбора, включая: топологию, поддерживаемые протоколы, пропускную способность и задержки. Базовый коммуникационный слой Nexus применяется для реализации высокоуровневых сервисов и средств программирования.

  • Информационное обслуживание. Функционирование метакомпьютерной среды основано на управлении всевозможными типами ресурсов: компьютеров, сетей, протоколов и алгоритмов. Понятно, что поиск ресурсов возможен, если о них имеется соответствующая информация. Управление информацией в Globus (служба MDS – Metacomputing Directory Service) базируется на протоколе LDAP. LDAP специфицирует иерархическое древовидное пространство имен объектов (информационное дерево каталогов – DIT) и спроектирован как распределенная служба: произвольные поддеревья могут размещаться на различных серверах. Модель данных MDS представляет различные типы ресурсов, использующихся в распределенных вычислениях. В протоколе LDAP ресурсы формализуются понятиями объекта и атрибутов. В MDS это сайты (административные домены), вычислительные хосты вместе со сведениями о платформе, производительности процессоров, объеме памяти и т.д. Начиная с версии Globus 1.3 используется распределенная модель GRIS-GIIS: на каждом узле работает локальная база данных GRIS, которая может быть связана с сервером организации GIIS, собирающим данные с нескольких GRIS.

  • Безопасность. Безопасность в GRID-среде является многоаспектной проблемой, включающей вопросы аутентификации, авторизации, разграничения прав и пр. В традиционных приложениях клиент – сервер аутентификация происходит между одним клиентом и одним сервером. Сетевые же приложения могут получать ресурсы и запускать процессы на множестве компьютеров, причем их может быть действительно много – несколько сотен. Запущенные процессы взаимодействуют друг с другом, образуя динамически организованное логическое целое. Следовательно, возможное решение должно устанавливать и контролировать доверительные отношения потенциально между любыми двумя процессами. Пользователь аутентифицирует себя всего один раз за сессию, создавая «мандат», по которому процессы получают ресурсы от имени пользователя без какого-либо его дополнительного вмешательства. В Globus схема безопасности реализуется на базе стандарта GSS – Generic Security Services, определяющем процедуры и API получения сертификатов для взаимной аутентификации клиента с сервером, для кодирования/декодирования сообщений и электронной подписи. При этом GSS независим от какого-либо конкретного механизма безопасности и может быть надстроен над различными методами.

  • Управление ресурсами. Под управлением ресурсами в метакомпьютинге принято понимать круг проблем, связанных в первую очередь с обнаружением и выделением ресурсов, а также аутентификацию, авторизацию, создание процессов и другие действия по подготовке ресурсов к использованию в сетевом приложении. В системе Globus средством заказа ресурсов служит язык спецификации RSL (Resource Specification Language), который определяет унифицированные для всей глобальной среды формы задания ресурсов и служит для реализации связи между компонентами GRID-среды, обслуживающими запросы. Запросы RSL конструируются из спецификаций параметров ресурсов, соединенных логическими операторами &, |, +. Имеется два типа параметров, различающихся по смыслу и по способу обработки: (1) Имена атрибутов MDS используются для задания ограничений на ресурсы (например, memory>=64, network=atm); (2) локальные параметры выражают информацию относительно задания (count - число запрашиваемых узлов, max_time - время счета и т.д.). Они интерпретируются в локальных системах. За преобразование RSL в более конкретные спецификации и наоборот ответственен так называемый "брокер", который по строке RSL подбирает соответствующие ресурсы. Реализация этого брокера существенно опирается на информационный сервис, обеспечивающий эффективный доступ к данным о текущем статусе ресурсов. Результатом выполнения поискового запроса становится один или несколько адресов локальных менеджеров ресурсов, подходящих для запускаемого задания.

  • Локальное управление ресурсами и заданиями. Самый низший уровень в архитектуре Globus – уровень управления ресурсами реализует локальный менеджер GRAM, который выполняет обработку спецификаций RSL (либо отвергая запрос, либо запуская одно или более заданий, указанных в запросе параметром executable), а также осуществляет дистанционный контроль заданий и периодическое обновление информации сервиса MDS. При обработке спецификаций GRAM либо самостоятельно выделяет ресурсы, либо делает это посредством обращения к некоторой локальной системе управления пакетной обработкой (СУПО). В программном интерфейсе GRAM представлены функции запуска, снятия задания и опроса его состояния. На базе этого API (и с помощью API других сервисов) в системе Globus реализован пользовательский интерфейс для управления заданиями.

Программное обеспечение Globus доступно распространяется свободно. Подробную информацию можно получить на сайте http://www.globus.org.

Организация ресурсов в проекте EDG

Ресурсы в проекте EDG формируются из отдельных сайтов. Типичный сайт содержит следующие элементы:




  1. Компьютер конечного пользователя (User Interface, UI). Это компьютер, на котором установлено программные средства пользовательского интерфейса и который позволяет конечному пользователю взаимодействовать с GRID-средой (в частности, запускать задания и получать результаты).

  2. Вычислительный элемент (Computing Element, CE). Вычислительный элемент представляет собой GRID-интерфейс к локальной СУПО.

  3. Рабочие узлы (Woker Nodes, WN). С точки зрения GRID-среды рабочие узлы находятся за вычислительным элементом (CE) и управляются локальной СУПО. Детали процесса распределения и вычисления оказываются скрытыми для конечного пользователя, но именно эти узлы выполняют фактические вычисления и, значит, на них должно быть установлено программное обеспечение для выполнения заданий конечных пользователей.

  4. Накопитель данных (Storage Element, SE). Этот узел обеспечивает единообразный доступ к любым накопителям данных . В общем случае, накопитель может управлять дисковыми массивами, массовой памятью и т.п. Этот элемент скрывает детали конкретной накопительной системы и обеспечивает пользователям единообразный доступ к данным.

Существуют также узлы, ответственные за сервисы общего пользования:



  1. Брокер ресурсов (Resource Broker). Этот узел принимает задание от пользователя (через пользовательский интерфейс), согласует требования к ресурсам, содержащиеся в описании задания, с имеющимися в наличии свободными ресурсами и направляет задание на подходящий сайт.

  2. Каталог реплик (Replica Catalog). Этот элемент поддерживает базу данных о местах хранения оригинальных файлов и всех их копий.

Работа в среде МГУ-GRID

Подготовительный этап для работы в среде GRID

Для того, чтобы начать работать в среде GRID-EDG, необходимо выполнить следующие действия.



  1. Получить криптографический сертификат от Сертификационного центра (Certification Authority, CA), см. разд. 2.1.

  2. Загрузив полученный сертификат в Ваш Веб-браузер, «подписать» (электронным способом) Соглашение об использовании GRID-ресурсов и зарегистрироваться в виртуальной организации МГУ-GRID. Это можно сделать через Интернет-сайт МГУ-GRID (http://lhc.sinp.msu.ru/CA/).

  3. Обратиться к системному администратору одной из организаций, входящих в МГУ-GRID, и получить доступ к компьютеру, на котором установлены программные средства EDG. Телефоны и электронные адреса администраторов можно найти на Интернет-сайте МГУ-GRID.



Сайты сегмента МГУ-GRID

Ресурсы и полное число сайтов в сегменте МГУ-GRID меняются со временем: будут добавляться новые сайты, а некоторые (временно) исчезать по разным причинам (ремонт, профилактические работы и т.п.). В настоящее время в сегмент входят сайты НИИЯФ, НИВЦ и факультета ВМК.


Получение сертификата


Криптографический сертификат используется для идентификации пользователя или компьютера в рамках правил, установленных Сертификационным центром (см. http://lhc.sinp.msu.ru/CA/). По существу, сертификат – это GRID-эквивалент обычного паспортного слова для получения доступа к компьютеру. Для получения сертификата необходимо послать по электронной почте запрос в Сертификационный центр по адресу: ca@lhc.sinp.msu.ru. В запросе необходимо указать подразделение МГУ, в котором Вы работаете или учитесь и характер задач, которые Вы предполагаете решать с помощью МГУ-GRID. В случае положительного решения, Сертификационный центр вышлет вам в ответ электронный сертификат (в PEM-формате).

Инсталляция сертификата


Обработка сертификатов в EDG-среде осуществляется с помощью Инфраструктуры Безопасности системы Globus (Globus Security Infrastructure, GSI). Для использования GSI сертификационные файлы usercert.pem и userkey.pem (в PEM-формате) необходимо поместить в директорию .globus в Вашем домашнем каталоге. Файл userkey.pem должен иметь моду доступа 0600; usercert.pem должен иметь моду 0644.

Импортирование сертификатов в браузер


Подписание Соглашения об использовании GRID-ресурсов производится с помощью Веб-формы. Чтобы получить доступ к этой форме, размешенной на сайте Сертификационного центра, необходимо загрузить сертификат в Интернет-браузер. Процедуры загрузки существенно различаются для различных браузеров. Для наиболее популярных браузеров они сводятся к следующим действиям.

  • Netscape, Mozilla: Выберете в меню браузера “Communicator  Tools  Security Info” и кликните на разделе “Certificate/yours”. Браузер запросит у Вас новое паспортное слово для защиты базы данных с Вашими сертификатами (запомните его для того, чтобы иметь возможность помещать в нее другие сертификаты). Далее Вам необходимо перевести файл usercert.pem в PKCS12-формат, поскольку Netscape и Mozilla могут работать только с такими файлами. Для этого на компьютере с установленными EDG-утилитами задайте следующую команду:

/opt/edg/bin/grid-mk-pkcs12

(обратите внимание, что команду надо задавать с указанием пути).



  • Internet Explorer: В меню Tools выберите раздел Internet Options, затем Content и кликните на Certificates. В открывшемся окне кликните на Import wizard и следуйте появляющимся инструкциям. Выберите файл для импорта и паспортное слово.



Вход в среду GRID


Для того, чтобы получить доступ к ресурсам МГУ-GRID, необходим компьютер с установленным пользовательским GRID-интерфейсом (UI). Доступ в среду GRID происходит под именем, содержащемся в сертификате и контролируется с помощью специальной программы-посредника (электронной «доверенности» - proxy), которая создается на определенный ограниченный срок с помощью персонального ключа (userkey.pem) пользователя. Сервисные службы GRID могут выполнять любые действия только если располагают копией такой доверенности.
Если сертификат установлен правильно, команда grid-proxy-init создает новую доверенность. В ответ на экран выводится сообщение, подобное следующему:

$ grid-proxy-init

Your identity: /C=FR/O=CNRS/OU=LAL/CN=Charles Loomis/Email=loomis@lal.in2p3.fr

Enter GRID pass phrase for this identity: **********

Creating proxy .................................................. Done

Your proxy is valid until Tue Aug 13 03:15:11 2002


По умолчанию, доверенность действительна в течение 12 часов. После создания доверенность, при необходимости, автоматически используется различными командами EDG-GRID. Если желательно, доверенность с другим сроком действия может быть создана с помощью параметра –hours. Необходимо учитывать, что чем больше время действия доверенности, тем больше вероятность, что используемые Вами ресурсы подвергнутся атакам хакеров.
Если сертификат был установлен неправильно, выдается сообщение об ошибке: “user certificate not found”, а в случае ошибки в паспортном слове – сообщение “wrong pass phrase”.
Для уничтожения доверенности до истечения ее срока можно использовать команду grid-proxy-destroy. Однако, эта команда уничтожает только локальную копию доверенности, не затрагивая копии, используемые при выполнении Вашего задания и другими службами GRID.
Для получения информации о выданной доверенности, используйте команду grid-proxy-info с параметром –all, которая выдает полную информацию о доверенности:
$ grid-proxy-info -all

subject : /C=FR/O=CNRS/OU=LAL/CN=Charles Loomis/Email=loomis@lal.in2p3.fr/CN=proxy

issuer : /C=FR/O=CNRS/OU=LAL/CN=Charles Loomis/Email=loomis@lal.in2p3.fr

type : full

strength : 512 bits

timeleft : 11:36:17


Отдельные элементы информации могут быть получены с помощью соответствующих значений параметра команды.
Более подробную информацию обо всех этих командах можно получить, если их задать с параметром --help.

Отправка заданий в среду МГУ-GRID


Система отправки заданий в среду МГУ-GRID представляет собой большую СУПО с командами для направления заданий, проверки их статуса и получения результатов. В отличие от обычных СУПО (таких как PBS, LSF и др.), система отправки заданий EDG:

  1. обеспечивает единообразный доступ к ресурсам на различных узлах сети;

  2. автоматически согласовывает требования, необходимые для выполнения задания, с имеющимися ресурсами.

Как и в кластерных системах, пользовательская команда запуска в Globus содержит имя скрипта, запрос ресурсов в котором специфицируется в виде строки RSL. Клиентское программное обеспечение выделяет этот запрос и передает его поисковому брокеру, осуществляющему через стандартное API LDAP поиск в базе данных MDS. Возвращаемая информация содержит сетевые адреса тех GRAM, которые обладают требуемыми ресурсами. Далее по полученному адресу пересылается паспорт и само задание.

В данном руководстве описаны лишь основные свойства системы отправки заданий GRID. Более полную информацию можно найти на сайте http://www.infn.it/workload-grid/documents.html.

Команды отправки заданий


Команды управления заданиями имеют следующий вид:

  • dg-job-submit - команда отправки файла (здесь он назван job.jdl) с описанием задания (подробнее см. ниже);

  • dg-job-status - запрос статуса задания по его идентификационному номеру jobID, который выдается системой после отправки задания (возможными состояниями задания являются: Accepted, Waiting, Running, Done, OutputReady и Abort);

  • dg-job-get-output - вызов результатов обработки задания;

  • dg-job-cancel - отмена задания.

Идентификационный номер заданий, который присваивается им загрузочной системой EDG, имеет следующую форму:


https://lhc20.sinp.msu.ru:7846/137.138.181.214/152312203546264?lhc20.sinp.msu.ru:7771
Обратите внимание, что этот номер содержит знаки вопроса, которые в некоторых системных оболочках (например, в csh) интерпретируется как любой набор символов (wild card). Для этих оболочек идентификационные номера должны заключаться в кавычки.
Другие команды используют идентификационный номер для выполнения соотвесвующих действий с перечисленными заданиями. Команда dg-job-output передает результат обработки задания от брокера ресурсов (точнее, с компьютера, на котором размещен этот брокер и где кэшируется результат обработки задания) на компьютер пользователя. Результат может быть получен только когда задание имеет статус OutputReady.

Файл с описанием задания


Файл с описанием задания создается с помощью языка описания заданий (Job Description Language, JDL) и содержит необходимые входные данные, требования к ресурсам и сведения о том куда должны быть записаны результаты обработки задания. Типичный jdl-файл имеет вид:
# This is a comment.

Executable = "HelloScript.sh";

StdOutput = "std.out";

StdError = "std.err";

InputSandbox = {"HelloScript.sh"};

OutputSandbox = {"std.out","std.err"};

Requirements_и_Rank'>Requirements = other.LRMSType=="PBS" && other.OpSys=="RH 6.2";

Rank = other.FreeCPUs;


В этом примере указано, что в качестве входного задания используется скриптовый файл HelloScript.sh, а результаты записываются в стандартные выходной файл и файл регистрации ошибок, которые затем (с помощью команды dg-job-get-output) будут переданы на компьютер пользователя.
Важное замечание: Входные и выходные файлы типа sandbox («песочницы») можно использовать только для небольших заданий (типа скриптовых файлов) с небольшими объемами выходных данных. Задания с большими объемами входных и выходных данных необходимо считывать и записывать непосредственно на GRID-элемент хранения данных (storage element). Неправильное использование (переполнение) «песочниц» может привести к нарушению работы брокера ресурсов.
Два параметра – Requirements и Rank – определяют ресурсы, которые пригодны для выполнения задания. В приведенном примере параметр Requirements требуют, чтобы узлы на которых будет выпоняться задания управлялись локальной СУПО PBS и операционной системой Linux 6.2. Задание будет направляться только на узлы, удовлетворяющие этим условиям. Если более, чем один ресурс удовлетворяет условиям Requirements, тогда паармер Rank определяет наиболее желательный ресурс. Значениями обоих параметров могут быть любые выражения, которые объявляют ресурсы в системе MDS (Metacomputing directory service). Язык описания заданий JDL основан на библиотеке ClassAd. Более полная информация о поддерживаемых функциях и синтаксисе выражений можно найти на сайте http://www.cs.wisc.edu/condor/classad.
Используя параметры в JDL-файле можно направить задание на узлы, которые имеют копии определенных входных файлов:
InputData = {"LF:file1.txt"};

ReplicaCatalog = "ldap://lhc20.sinp.msu.ru:9011/rc=Testbed \ Replica Catalog,dc=lxshare0226,dc=cern,dc=ch";

DataAccessProtocol = {"file", "gridftp"};
Параметр ReplicaCatalog требуется только в случае, когда InputData содержит по крайней мере одно логическое имя файла. Другими словами, он может быть опущен, если используются только физические имена файлов. Аналогично, можно выделить сайты с определенным Элементом хранения (storage element):
OutputSE = "gppse05.gridpp.rl.ac.uk";
Часто бывает удобно проверить соответствие ресурсов заданию до начала его выполнения. Для этого можно использовать команду:
dg-job-list-match
Для данного JDL-файла она выдает упорядоченный по рангу список ресурсов, которые удовлетворяют требованиям задания.

Долговременные задания


Может оказаться, что время выполнения задания превосходит срок действия начальной доверенности. Это приведет к остановке задания и потере данных. Чтобы избежать этого, загрузочные программные средства EDG позволяют автоматически обновлять доверенность, если она находится под управлением прокси-сервера. Для запуска механизма автоматического возобновления доверенности, необходимо выполнить следующие действия:

  1. Создать доверенность, используя grid-proxy-init.

  2. Зарегистрировать эту доверенность на прокси-сервере с помощью команды myproxy-init –s [-t -c
    ]
    , где “server” это адрес сервера, “cred” – время (число часов), в течение которого довереность должна действовать на сервере, и “proxy” - время (число часов), в течение которого должна действовать обновленная доверенность.

  3. Теперь задания с кратковременными доверенностями запускаются с помощью команды grid-proxy-init –hours .

Информация о сохраненных доверенностях может быть получена с помощью команды myproxy-info –s -d, а удалить доверенность можно командой myproxy-destroy

s .

Примеры





  • Пример 1. Hello MSU

Простейшее задание - это задание, которое просто записывает фразу "Hello MSU" в стандартный выходной файл. Чтобы запустить этот пример, создайте файл "hello.jdl", содержащий следующие строки:

Executable = "/bin/echo";

Arguments = "Hello MSU";

StdOutput = "std.out";

StdError = "std.err";

OutputSandbox = {"std.out","std.err"};

Заметим, что для команд используются полные пути их задания и что местом для записи результатов и ошибок указан выходной sandbox.

Запуск такого задания дает следующий результат:


$ dg-job-submit hello.jdl

 

Connecting to host lhc20.sinp.msu.ru, port 7771



Logging to host lhc20.sinp.msu.ru, port 15830

 

***************************************************************************** JOB SUBMIT OUTCOME



The job has been successfully submitted to the Resource Broker.

Use dg-job-status command to check job current status. Your job identifier (dg_jobId) is:

 

- https://…



*****************************************************************************

В последней строке (начинающейся с "https") выдается идентификатор задания. Используя его в команде dg-job-status, можно получить информацию следующего типа:

dg_JobId = https://lhc20.sinp.msu.ru:7846/137.138.181.214/152312203546264?lhc20.sinp.msu.ru:7771

Status = OutputReady

Last Update Time (UTC) = Mon Aug 12 15:24:14 2002

Job Destination = tbn01.nikhef.nl:2119/jobmanager-pbs-qshort

Status Reason = terminated

Job Owner = /C=FR/O=CNRS/OU=LAL/CN=Ivan Ivanov/Email=ii@v.ru

Status Enter Time (UTC) = Mon Aug 12 15:24:14 2002

Как видно, к тому времени, когда был послан запрос о статусе, выполнение задания уже было закончено и выходные данные были направлены обратно Брокеру Ресурсов. При нормальной обработке, состояниями задания могут быть: Accepted, Waiting, Running, Done, and OutputReady. Невозможность по каким-либо причинам выполнения задания, обычно приводит к статусу Abort.

Для получения результата используется команда dg-job-get-output с указанием идентификатора задания:

$ dg-job-get-output https://lhc20.sinp.msu.ru:7846/137.138.181.214/152312203546264?lhc20.sinp.msu.ru:7771

 

 

*****************************************************************************



JOB GET OUTPUT OUTCOME

 

Output sandbox files for the job:



- https://lx…

have been successfully retrieved and stored in the directory:

/tmp/152312203546264

Здесь важной является информация о местонахождении выходных файлов. В данном случае, это директория /tmp/152312203546264, куда помещены выходные файлы std.out и std.err, специфицированные в выходной "песочнице". Файл std.out содержит единственную строку: "Hello MSU". Файл std.err в данном примере пустой, но в общем случае может содержать сообщения о стандартных ошибках.



  • Пример 2. Hello from Script

В этом примере в GRID-среду отсылается небольшой скрипт задания, он выполняется и результат возвращается пользователю.

Создайте исполнимый файл с названием HelloScript.sh, содержащий следующий скрипт :

#!/bin/sh

/bin/echo "Hello From Script"

/bin/ls 9485968.txt

Этот скрипт попросту записывает заданную фразу (в данном случае "Hello From Script") в стандартный выходной файл и ошибку - в файл записи стандартных ошибок (если, конечно, в компьтере, на котором запускается задание, нет файла 9485968.txt).

JDL-файл для этого задания имеет вид.

Executable = "HelloScript.sh";

StdOutput = "std.out";

StdError = "std.err";

InputSandbox = {"HelloScript.sh"};

OutputSandbox = {"std.out","std.err"};

Если скрипт HelloScript.sh находится не в текущей директории, необходимо указать полный путь к нему.

При правильном выполнении этого задания выходной файл состоит из одной строки:

Hello From Script

а файл записи ошибок - из строки:

/bin/ls: 9485968.txt: No such file or directory


  • Пример 3. Спецификация требований, необходимых для выполнения задания

С помощью спецификации требований, пользователь может направит задание на сайт, который располагает ресурсами, необходимыми для выполнения задания. Неполная спецификация может привести к остановке выполнения задания и потери времени как для удаленных ресурсов, так и для пользователя.

Для спецификации используется атрибут "Requirements" в JDL-файле описания задания. Значениями этого атрибута являются булевы выражения для задания требуемых ограничений. При этом допустимым является практически весь набор операторов (а также синтаксис) языка C.

Возможные значения (или переменные), используемые при описании требований, определяются атрибутами вычислительного элемента. Они определяются с помощью информационной службы GRID:

ldapsearch -x \

-H ldap://lxshare0225.cern.ch:2135 \

-b 'mds-vo-name=edg,o=grid' \

'(objectclass=computingelement)'

Типичными атрибутами являются: "Architecture", "OpSys", "RunTimeEnvironment", "MaxCPUTime", "MaxWallClockTime" и "FreeCPUs". Большинство из них не нуждаются в объяснениях.

Например, если задание требует по крайней мере 25 минут работы CPU и 100 минут реального времени, необходимо задать следующую спецификацию:

Requirements = other.MaxCPUTime>=1500 && other.MaxWallClockTime>=6000;

(время задается в секундах). Обратите внимание на префикс "other." в атрибутах: это следствие синтаксиса ClassAds, на котором основан язык JDL. Необходимо заметить также, что значения не берутся в кавычки. Взятие в кавычки численных значений привело бы к стринговым сравнениям и к неправильному (если вообще к какому-либо) подбору ресурсов.

Атрибут "RunTimeEnvironment" обычно используется для описания программных средств, которые должны быть установлены на узле для выполнения задания. Например, требование

Requirements = Member(other.RunTimeEnvironment,"ALICE-3.07.01");

Выделит узлы, которые "объявили" о наличии программного обеспечения "ALICE-3.07.01". Атрибут "RunTimeEnvironment" является многозначным; функция "Member" возвращает значение true, если данное значение содержится в списке свойств узла.

Вообще говоря, можно принудительно напрвить задание на какой-либо выделенный узел (с помощью параметра --resource команды dg-job-submit). Однако, это полностью отменяет процесс согласования ресурсов брокером и не создается файл .BrokerInfo с результатами согласования. Вместо такого принудительного напрвления задания можно использовать согласование с условием типа следующего:

Requirements = other.CEId=="ccgridli03.in2p3.fr:2119/jobmanager-bqs-A";

оно приводит к аналогичному результату. Более интересным является вариант, когда узел или выбирается, или исключается:
Requirements = RegExp(".*nikhef.*",other.CEId);

Requirements = RegExp(".*nikhef.*",other.CEId)!=TRUE;

Это невозможно сделать с помощью опции --resource.


  • Пример 4. Ranking Resources

Если несколько узлов в GRID-сети удовлетворяют требованиям задания, оно будет направлено на ресурс с наибольшим рангом. Если атрибут "Rank" не указан в JDL-файле, тогда по умолчанию используется:

Rank = -other.EstimatedTraversalTime;

Значение параметра EstimatedTraversalTime равно оценке времени (в секундах), которое пройдет до запуска задания на данном узле. Такое задание ранга не всегда оптимально, и пользователь может выбрать другие критерии, например,

Rank = other.FreeCPUs;

приведет к выбору узла с наибольшим числом свободных процессоров. Естественно, чем выше ранг, тем более желательно использовать данный ресурс.

Передача файлов


Зачастую требуется передать какие-либо файлы с одного узла на другой. Это можно сделать с помощью команды
globus-url-copy [options] sourceURL destURL
Список возможных опций выдается заданием этой команды с опцией --help. Поддерживаются протоколы передачи: file, gsiftp и http. Приведем несколько примеров:
file:///home/loomis/stuff.txt

gsiftp://testbed011.cern.ch/~/stuff.txt

gsiftp://testbed011.cern.ch//tmp/stuff.txt

http://marianne.in2p3.fr/datagrid/documentation/daemon-guidelines.html


Для протокола file допустимо только абсолютное имя. Все URL должны быть полностью специфицированы (в частности, нельзя опускать имя файла в URL узла куда файл доставляется). В случае gsiftp протокола для обозначения домашней директории должна использоваться тильда.
Одним из основных преимуществ команды globus-url-copy являеся возможности передачи данных между двумя удаленными компьютерами без их “прокачивания” через Ваш собственный компьютер. Это позволяет избежать двойного копирования файлов и особенно важно когда команда задается с компьютера, подключенного к сети через низкоскоростную линию или имеющего недостаточное свободное дисковое пространство.

Репликация файлов, каталогизация и управление данными


Управление доступом к данным и его оптмизация (включая репликацию файлов и создание каталогов реплик) является одной из важнейших составных частей GRID-систем с географически удаленными узлами - в частности, проекта EU DataGrid (EDG). Поскольку МГУ-GRID является сравнительно компактной сетью, эти сервисные службы стандартного программного обеспечения EDG будут адаптированы к конкретным потребностям университетского сегмента GRID. В настоящее время эта работа находится в стадии проработки и тестирования. По мере ее реализации настоящее Руководство для пользователей будет обновляться. Сведения об общих свойствах этих сервисов в EDG можно найти на сайтах:

  • http://marianne.in2p3.fr/datagrid/documentation

  • http://www.cern.ch/GDMP/userguide/-gdmp-3-0/

  • http://project-gdmp.web.cern.ch/project-gdmp/documentation.html

  • http://www.globus.org/datagrid/delivarables/replicaGettingStarted.pdf





Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©grazit.ru 2017
обратиться к администрации

    Главная страница