Мы покупаем разумное количество подержанное оборудование IBM вместе с новым материалом на уровне $JOB. Это - все блейды HS/LS теперь, но у нас было много x3 ** коробки от пиццы в прошлом. Поскольку я уверен, что Вы знаете, существует некоторый большой материал, который будет иметься от конца других людей договоров аренды и обновлений оборудования. Часто даже с некоторым временем, оставленным на гарантиях от производителя.
Обычно любые проблемы, которые мы видели, возникают, сделали так справедливо быстро и стали очевидными в конечном счете журналы BladeCenter или BIOS. Они могут обычно чесаться только путем увеличивания машины в течение короткого промежутка времени и перезапуска.
Дело не в этом распространенный для наблюдения механизма S/H, заполненного с дисками. Каждый раз, когда мы делаем они выброшены. Вращение медиа является почти всегда самой слабой ссылкой в аппаратной цепочке. Вы понятия не имеете, показали ли диски проблемы ранее или были отброшены в пути. Диски являются столь дешевыми для покупки новый, что это просто не стоит нашей стычки.
Что касается технического вопроса какой инструмент использовать. Так как Вы только, кажется, имеете дело с машинами IBM, Вы могли бы также использовать удобный и всесторонний инструмент диагностики, в который IBM уже бросила-. Просто хит F2 при начальной загрузке.
Я думаю, что это зависит от того, что Ваши требования времени работы, и с каким уровнем "серого рынка" Вы имеете дело.
Если Ваши требования времени работы высоки, то Вы хотите полагаться на дублирование инфраструктуры, так, чтобы потеря единственной машины не означала потери сервисов для Ваших клиентов. Купите дважды, сборка в дублировании, и контролируйте свои хосты и сеть так, чтобы Вы знали, когда необходимо заменить что-то.
Если Ваши требования времени работы не то, что высоко, но Вы просто нуждаетесь в рабочих аппаратных средствах, то оцениваете людей, Вы покупаете у. Не покупайте материал, которому не гарантируют не-DOA. Если бы Вы можете, купить у refurb магазинов, по крайней мере, с 90-дневными гарантиями, хотя год был бы большим, если Вы могли бы предоставить его и удостовериться, что можно получить запасные части для того, что Вы покупаете у другого источника, если оригинал закрывается.
Другая мысль состоит в том, чтобы попытаться стандартизировать Ваши системы. Попытайтесь купить тот же HW, который может затем использоваться в качестве запчастей в случае необходимости. Фактическое тестирование будет зависеть от доступного времени. Я попытался бы создать свое автоматизированное собственное (и повторяемый) набор тестов, который подчеркнет все главные компоненты. ЦП, Память, Диск, ввод-вывод, Сеть ввод-вывод - то, что я попытался бы подчеркнуть в тесте, который должен запускаться несколько раз и использоваться для установки базовой линии. Каждая система, которая работала ниже той базовой линии (10 или на 20% ниже) должна быть вновь исследована прежде, чем развернуться в производство.
Я обычно загружаю систему под тестом с помощью внешнего носителя т.е. флэш-памяти USB или начальной загрузки сети PXE в электронный диск. Это позволяет мне тестировать диски разрушительным способом и разрабатывать хорошую многоцелевую тестовую среду.
Для тестирования диска я использую badblocks разрушительные 4, проходят тест на неструктурированном устройстве, например.
badblocks -vw /dev/sda
Примечание: это вытрет все данные по диску! Если у Вас есть несколько дисков, это может далее подчеркнуть систему для тестирования их параллельно.
Компиляцию ядра Linux считают хорошим полным тестированием системы. Я выполняю один цикл компиляции на ядро процессора. Настройте исходное дерево ядра по умолчанию и скопируйте его для каждого экземпляра. Затем в каждом экземпляре делают что-то как:
while (1); do make clean && make bzImage; done
В то время как компиляция ядра продолжается, Вы могли бы хотеть наблюдать температуру ЦП с датчиками, например:
while (true) do sensors | grep Temp; sleep 5; done
Выполните это в течение 24 часов, и у Вас должна быть хорошая надежная система в конце его.
Мне нравится использовать memtest86 для тестирования подсистемы памяти. Это сообщит, существуют ли какие-либо плохие модули памяти в Вашей системе.
Для тестирования ЦП мне нравится выполнять клиент Distributed.net RC5-72; это загрузит Ваши центральные процессоры в 100%, уплотняющих ключи RSA на 72 бита. Если бы существует проблема с центральными процессорами или связанными компонентами, я думал бы, что это нашло бы их. Я позволяю ему работать столько, сколько я могу - в дополнение к выделению ада из моих центральных процессоров, это также взлеты моя статистика DNETC :) Вероятно, хотя, для стресс-тестирования система, я выполнил его ПО КРАЙНЕЙ МЕРЕ 24 часа.
badblocks, как упомянуто выше, является хорошим путем к дисководам стресс-теста, должны Вы хотеть сохранить их (отдельное обсуждение). Альтернатива считыванию со стиранием / тест записи, упомянутый VMBed, является неразрушающим тестом чтения-записи, который оставит данные неповрежденными.