Кластер HPC (SLURM): рекомендуемые способы настроить защищенную и устойчивую систему

Я работаю с SLURM управляемый Кластер HPC, содержа 1 узла управления и 34 узлов вычисления и так как существующая система не точно очень стабильна, я ищу инструкции или лучшие практики о том, как создать такой кластер способом, что это становится более стабильным и безопасным. И быть ясным я не ищу подробные ответы об управлении ресурсами, или возможно дополнительные инструменты, но для советуют об очень простой установке (см. "Вопрос" ниже).

Моя текущая Установка

  • 1 узел управления

    Эта машина имеет slurm, установленный на/usr/local/slurm, и выполняет slurmctld демона. Полный slurm каталог (включая все исполняемые файлы и slurm.conf) экспортируется.

  • 34 узла вычисления

    Эти машины монтируют экспортируемый slurm каталог от узла управления до/usr/local/slurm и выполняют slurmd демона.

Я не использую Резервного Узла Управления.

Если наш узел управления теряется, всегда кажется вопросом удачи, если в настоящее время рабочее задание выживет или нет, таким образом, я буду искать способ создать более стабильную установку.

Возможные проблемы с текущей установкой

1) Общий slurm каталог. Я ничего не мог найти в сети, если это - acutally польза или плохая практика, но так как slurm файл конфигурации должен быть тем же на всех машинах, я думал, что мог бы также совместно использовать полную slurm установку. Но конечно, если вычислить узел теряется, все файлы станут недоступными также.

2) Недостающий резервный узел управления. Это требует общего каталога NFS, где текущее состояние может быть сохранено. Вопрос был бы, где этот каталог должен быть расположен? Конечно, не имеет смысла помещать его на узел управления, но это должно быть на резервном узле управления? Или на всей другой машине?

Вопрос

Так, есть ли некоторые инструкции для следования для создания кластера HPC? Вопросы были бы, какие различные виды узлов включены, каково их задание и какие данные должны быть совместно использованы через NFS и где те общие каталоги должны жить? Я также был бы благодарен о любых видах литературы или учебных руководств, которые указывают на меня в правильное направление.

2
задан 24 July 2014 в 17:49
1 ответ

Прошло много времени с тех пор, как я коснулся SLURM, так что возьмите следующее с зерном соли. Кроме того, дизайн вашего кластера будет определяться вашей нагрузкой. Обычно вы начинаете с головного узла и ряда вычислительных узлов, откуда строитесь. Пакет типа Rocks может быть хорошим местом для начала.

Я вижу, что общий каталог - это проблема. В зависимости от нагрузки у Вас уже может быть много трафика, проходящего через NFS, поэтому я бы установил SLURM локально. Вы можете сделать копию конфигурации slurm доступной на экспортированном томе NFS и скопировать на место с помощью 'fornodes' скрипта или использовать скриптовый скрипт. Если вы делаете много изменений в вашей конфигурации slurm, вы даже можете добавить slurmd перезагрузки в сценарий.

Что касается резервного узла управления, то я бы об этом не беспокоился. Ваш узел управления резервным копированием, вероятно, является единственной точкой сбоя, так что если вы потеряете, что у вас уже будут проблемы с вашей работой. Я также не уверен, как работает механизм резервного копирования для учета SLURM, если он включен, так как обычно используется база данных типа MySQL.

Для экспорта я обычно экспортирую каталог /home и /opt на более мелкие кластеры. В зависимости от ваших потребностей в данных, вы можете рассмотреть возможность создания отдельного узла хранения с дополнительным хранилищем, который будет распределять нагрузку NFS. Поскольку вы упоминаете, что у вас проблемы со стабильностью, вы можете подумать об использовании такого пакета, как Ganglia, который будет отслеживать загрузку узла, использование памяти, пропускную способность сети и другие значения и представит их в виде серии графиков. Вы также можете многому научиться с помощью инструментов командной строки, таких как запуск сверху на узлах вычислений. Вы также захотите протестировать масштабирование заданий. Если ваши работы работают ужасно, когда они охватывают узлы (MPI?), вам может понадобиться быстрее, с меньшими задержками соединения, как Infiniband или 10 Гб Ethernet.

Удачи с SLURM. Мне нравилось использовать его, прежде чем я изменил работу, но так как он не так популярен, как крутящий момент/Maui или Sun/Oracle Grid Engine ответы на мои странные вопросы всегда было трудно найти.

.
1
ответ дан 3 December 2019 в 12:52

Теги

Похожие вопросы