Как обновить Slurm?

Я ' меня попросили обновить установку Slurm Workload Manager. У меня есть slurm 2.3.4 на кластере Wheezy Debian 7.0 (1 мастер + 8 узлов). Я не установил его, поэтому я немного не понимаю, как это сделать и как действовать, не разрушая ничего. (На самом деле я не могу создавать резервные копии данных, поскольку существует слишком много терабайт данных, чтобы их можно было скопировать куда-нибудь еще.)

Я думал обновить хотя бы до Jessie (Debian 8), но как насчет Slurm? Я внимательно прочитал раздел обновления ( https://slurm.schedmd.com/quickstart_admin.html ) документа, где сказано, что обновление должно выполняться постепенно, а не переходить с 2.3.4 на 17. , например.

Стиль мне непонятно, как именно это сделать. Как бы вы поступили, если бы вас попросили обновить кластер, который вы просто не делаете? ничего не знаю? Что бы вы проверили? Какую версию os и slurm вы бы выбрали? Что бы вы сделали резервную копию? И как бы вы поступили?

Любая информация - золото! Спасибо

1
задан 3 October 2017 в 16:31
1 ответ

Я проделал подобные обновления с Torque / Moab, но не с Slurm, но могу дать несколько советов. Если вы можете получить тестовую систему или виртуальную машину, чтобы убедиться, что все будет работать после обновления, это будет идеально. В противном случае это сложная часть, о которой упоминается в документе:

Slurm разрешает обновление между любыми двумя версиями, чьи основные номера выпуска отличаются на два или меньше (например, с 15.08.x или 16.05.x до 17.02.x) без потери рабочих мест или других государственная информация. Информация о состоянии из более старых версий не будет распознаваться и будет отброшена, что приведет к потере всех запущенных и ожидающих заданий.

Это означает, что если у вас есть запущенные и ожидающие задания после обновления, их там не будет. Таким образом, пользователям необходимо снова отправлять задания, что означает, что вы потеряете приоритет и другие метаданные, связанные с заданием, и информацию о состоянии.

В Torque / Moab была папка с заданиями, которую обычно можно скопировать и перенести в новую версию. Есть что-нибудь подобное?

По сути, если у вас нет тестовой машины, тогда в этом случае вам нужно будет запланировать время простоя и сообщить пользователям, что все текущие задания в очереди будут потеряны, что означает, что им придется повторно отправить все. Если это не вариант, вам нужно найти способ перенести задания в обновленную систему.

2
ответ дан 3 December 2019 в 20:19

Теги

Похожие вопросы