unattended memtest: практично ли это?

Я буду строить кластер среднего размера (20 узлов, расширение будет позже), и по разным причинам использование стандартного оборудования должно дать мне значительную экономию средств (даже с учетом более коротких рабочих циклов / Меня беспокоят постоянные сбои памяти.

Очевидное решение здесь - регулярно запускать memtest на каждом узле, но это создает 2 проблемы:

  • в то время как memtest имеет режим однократного запуска, затем режим выхода - как мне сконфигурируйте (заранее), что должно произойти после выхода (например, загрузка Linux)

  • , режим однократного запуска просто останавливается в случае возникновения ошибок - как мне спроецировать этот статус за пределы хоста?

0
задан 19 February 2020 в 15:37
3 ответа

Практично? Не регулярно в рамках текущих операций. Ожидание простоя для записи в память не обнаруживает переходных битов. И вводит значительную задержку в обнаружении постоянных отказов. Кроме того, если вы имеете в виду memtest86 + с открытым исходным кодом, существуют проблемы интеграции, такие как отсутствие поддержки UEFI и автоматизация отчетов о сбоях.

Вместо этого приобретите оборудование с достаточными функциями RAS, а именно память ECC. Затем ваш сервер может сообщать вам о сбоях памяти .

Такие ошибки могут быть не очень распространенными. Серверы без ECC не сразу откажутся и не сгорят, это выбор. Однако часто надбавка к цене невелика, если на вашей модели сервера даже есть выбор в пользу ОЗУ без ECC.

1
ответ дан 26 February 2020 в 00:36

Теперь у меня есть ответ на первую часть моего вопроса. В дистрибутив grub входит нечто, называемое grubonce . Следовательно, если Linux является моим по умолчанию в grub, я могу попросить grub запустить memtest один раз (и после этого он вернется к значению по умолчанию).

Пока кажется, что мой единственный вариант для второй части - это поиск машины остается в автономном режиме (то есть не под управлением Linux) после завершения запланированного тестирования памяти.

0
ответ дан 26 February 2020 в 00:36

Могу ли я узнать, какое приложение вы запускаете и что вы подразумеваете под постоянной неисправностью памяти?

Как ни странно, многие современные приложения действительно хорошо работают в ОЗУ без ECC и в большинстве случаев дают сбой связаны не с проблемой ECC, а скорее с нехваткой памяти или ошибкой.

И сканирование ОЗУ для выявления ошибки очень неэффективно. Первое место, где вы можете определить потенциальную ошибку, - это файл журнала, только если вы обнаружили симптом, вам придется запустить memtest.

Я думаю, было бы хорошо сначала прояснить свою логику выполнения этого, чтобы определить лучший решение, как вы думаете?

0
ответ дан 26 February 2020 в 00:36

Теги

Похожие вопросы