Параллельный пролог и эпилог в Механизме Сетки

Перезагрузите машину.

0
задан 2 March 2011 в 20:43
3 ответа

В случае, если это полезно другим, вот то, что мы закончили тем, что делали:

  • Проверки состояния на долгом масштабе времени, и который не вмешался бы в потенциально перекрывающиеся задания, (т.е. проверяющий на аппаратные проблемы в системе хранения) были разгружены к периодическим заданиям крона. (Частоты зависят.)

  • Проверки состояния на долгом масштабе времени, но который мог бы вмешаться в задания (проверки производительности памяти) были разгружены к заданию SGE, отправленному каждому узлу в "эксклюзивном" режиме, отправленном ночью кроном. Если отказавший, узел является offlined, прежде чем любые другие задания могли бы прибыть.

  • Проверяет условия среды прямо прежде, чем выполнить задание (ищущий случайные процессы, полную память, и т.д.) были помещены в скрипт, который был запущен из сценария запуска pe, startmpi.sh. Команды отправлены узлам с помощью pdsh и производят коды, возвращаются через STDOUT. (Не идеальный, но...), Если один или несколько узлов перестали работать, сценарий offlines их и выполнения qmod -r $JOB_ID повторно выполнять задание. (Обратите внимание, что задание должно быть указано как "перевыполнимое" или в его сценарии или по умолчанию.) Это вынуждает список узлов быть восстановленным, прежде чем jobscript будет на самом деле выполнен.

Мы в настоящее время работаем над встраиванием отказоустойчивости в это, но основы были подтверждены для работы. Благодаря @kamil-kisiel и #gridengine канал на synirc.net для предложений.

0
ответ дан 4 December 2019 в 22:31

Я не могу сказать, что попробовал его, но по крайней мере со сценарием пролога, возвращающим значение кроме 0, 99, или 100 должен разместить очередь в состояние ошибки. Вы можете использовать подобную тактику в start_proc_args сценарий.

Если это не работает, я не уверен, возможно ли того, что Вы спрашиваете, достигнуть с помощью сценариев пролога. Возможно, Вы могли использовать задание крона проверки состояния (или использовать Вашу предпочтительную систему контроля) выполнить проверки и отключить очереди хоста, если они перестали работать?

1
ответ дан 4 December 2019 в 22:31

Почему бы не создать датчик нагрузки, который работает на каждом узле и в зависимости от того, что Вы тестируете на наборы комплекс?

С этим подходом у Вас могут быть задания, работающие, который не является в зависимости от, например, межсоединения, если Ваша взаимосвязанная сеть снижается.

0
ответ дан 4 December 2019 в 22:31

Теги

Похожие вопросы