Вероятность блейд-отказа шасси

Question

Вероятность блейд-отказа шасси

Я знаю, что это немного поздно, но я лично использовал бы Сеть:: SSH:: Ожидайте, доступный от CPAN.

http://search.cpan.org/~bnegrao/Net-SSH-Expect-1.09/lib/Net/SSH/Expect.pod

48

networking storage hardware redundancy blade-chassis

задан ewwhite 21 December 2013 в 14:17

Ссылка

7 ответов

Я уже восемь лет управляю небольшим количеством блейд-серверов, и у меня до сих пор не было общесистемного сбоя, который отключил бы несколько блейд-серверов. Я подошел очень близко из-за проблем, связанных с питанием, но еще не имел отказа всего шасси, который не был бы связан с внешними источниками.

Ваше наблюдение, что шасси действительно представляет собой единую точку - сбой - это правильно, хотя в наши дни они встраивают в себя большое количество избыточностей. Все блейд-системы, которые я использовал, имели параллельную подачу питания на блейд-серверы и несколько сетевых разъемов, проходящих по разным путям, а в случае волоконно-оптических каналов - несколько путей от блейд-сервера к оптическим портам на задней панели стойки. Даже в информационной системе шасси было несколько путей.

При соответствующем проектировании сети (использование избыточного сетевого адаптера, MPIO для хранения данных) события с одной проблемой полностью сохраняются. За время работы с этими системами у меня были следующие проблемы, ни одна из которых не затрагивала более одного блейд-сервера, если таковая была:

Два блока питания вышли из строя в стойке для блейд-серверов. У остальных 4 было достаточно резервирования, чтобы поддерживать нагрузку.
Потеря фазы для 3-фазного источника питания. В наши дни эти источники питания редки, но две другие фазы имели достаточную мощность для поддержки нагрузки.
Потеря петли управления между шасси. Так было в течение многих лет, прежде чем технический специалист по другому телефону заметил это.
Полная потеря петель управления между шасси. Мы потеряли доступ к консоли управления, но серверы продолжали работать, как ни в чем не бывало.
Кто-то случайно перезагрузил заднюю сетевую панель стойки. Все в этом шасси использовало резервные сетевые карты, поэтому прерывания обслуживания не возникало; весь трафик перемещен на другую объединительную плату.

Точка зрения TomTom о стоимости очень верна. Чтобы достичь полного паритета затрат, ваше блейд-шасси должно быть полностью загружено и, вероятно, не использовать специальные устройства, такие как переключатели на задней панели стойки. Стойки для лезвий имеют смысл в тех областях, где вам действительно нужна плотность, потому что у вас ограниченное пространство

20

ответ дан 28 November 2019 в 19:38

Ссылка

Этот вопрос можно распространить на совместно используемое хранилище. Снова я бы сказал, что нам нужно два единиц хранения вместо одного - и снова продавцы говорят, что это такие крутые твердо, что отказа не ожидается.

На самом деле нет. Ваши опасения до сих пор имели смысл, это предложение помещает их в «прочтите материал перед вашими глазами». Высокая доступность с полной репликацией - это известная корпоративная функция для единиц хранения. Дело в том, что SAN (блок хранения намного сложнее, чем шасси для блейд-серверов, которое в конечном итоге представляет собой просто "тупой металл". Все в шасси для блейд-серверов, кроме некоторых объединительных плат, можно заменить - все модули и т. Никто не говорит, что центр блейд-серверов сам по себе обеспечивает высокую доступность блейд-серверов.

Это сильно отличается от SAN, который должен работать 100% времени - в согласованном состоянии - так что у вас есть такие вещи, как репликация и т. д.

СКАЗАНО: следите за своими числами. Я уже некоторое время подумывал о покупке лезвий, и они НИКОГДА НЕ СДЕЛАЛИ ФИНАНСОВЫЙ СМЫСЛ. Шасси слишком дорогое, а лезвия не дешевле, чем у обычных компьютеров. Я предлагаю в качестве альтернативы рассмотреть архитектуру SuperMicro Twin.

14

ответ дан 28 November 2019 в 19:38

Ссылка

Блейд-серверы, с которыми я имел опыт, принадлежат IBM. Эти конкретные из них полностью модульные, и в них встроено много избыточности. Итак, если что-то выйдет из строя, это будет один из компонентов, таких как блок питания или модульный коммутатор и т. Д. Но, опять же, даже в них есть избыточность.

С тех пор, как я работал с блейд-серверами IBM, я раньше не видел полного отказа. Было бы неплохо также поговорить с продавцом и много читать.
Это большие инвестиции.

4

ответ дан 28 November 2019 в 19:38

Ссылка

Сбои, приводящие к отключению нескольких блейд-серверов в одном корпусе, сопоставимы (по вероятности и причине) с сбоями, ведущими к отключению нескольких серверов в одной стойке.

Первоначальная настройка для минимизации одиночного точки отказа (два отдельных источника питания переменного тока, каждый из которых может обрабатывать всю нагрузку, работающие на отдельные источники питания постоянного тока, так что любая половина может справиться со всей нагрузкой; два отдельных ] сетевых подключений, каждое из которых может выдержать всю ожидаемую нагрузку и т. д.), и разница между тем, что извлекает все блейд-серверы в шасси, или всеми серверами 2U в стойке очень мала.

1

ответ дан 28 November 2019 в 19:38

Ссылка

Проблема, которую я очень часто читаю на разных форумах, заключается в том, что там это теоретическая возможность выхода из строя серверного шасси, что в результате вырубит все лезвия. Это связано с общим infrastructure.

Indeed! About 5 years ago, while managing two HP Proliant p-Class blade enclosures, I encountered chassis wide issues several times.

I've had blade servers not being able to turn on, if they had been turned off (servers are not turned off often, but became a very real problem to us just the same). I've had servers suddenly switching off and not being able to being switched on again. Finally, I had all the servers switching off and not being able to come on again.

As I recall it, pretty much all the issues were attributed to bad power backplanes or controller backplanes. We had those replaced a number of times and the non-specific, off-the-record message I got from the techs were, that they had their share of problems with this generation of blade enclosures.

I decided back then, that the benefit of blade servers were simply not worth the risk, if I had anything to say in future purchases.

Fast forward to my next employer, and my current one, for that matter. They already had HP Proliant c-Class enclosures running, so my luke warm feeling for blades didn't really matter. In the 5 years I've dealt with the c-Class enclosures, I've never experienced anything like I did with the p-Class, where an entire enclosure failed on me. They've been running without major problems.

(Except for the time a rain storm sent rain through the roof, 4 stories, a small hole in the seal of the computer room, down a cable and into the chassis)

1

ответ дан 28 November 2019 в 19:38

Ссылка

В шасси DELL и HP Blade отсутствует дублирующая средняя плоскость. Именно здесь IBM Bladecenter оказывается победителем. Насколько мне известно, это единственное блейд-шасси, которое обеспечивает дублирующую промежуточную плоскость. Хотя HP предлагает фантастический набор программного обеспечения для управления блейд-серверами, мы купили Bladecenter E для нашей компании, чтобы избежать единой точки отказа всего шасси.

-1

ответ дан 28 November 2019 в 19:38

Ссылка

Похожие вопросы

score 49 · Accepted Answer · 28 November 2019 в 19:38

Вероятность полного отказа корпуса мала ...

Вы, скорее всего, столкнетесь с проблемами на своем предприятии, прежде чем полный отказ корпуса блейд-сервера. 1225] Мой опыт в основном связан с корпусами для блейд-серверов HP C7000 и HP C3000 . Я также управлял блейд-решениями Dell и Supermicro. Продавец имеет значение. Но в целом оборудование HP было звездным, Dell - в порядке, а Supermicro не хватало качества, отказоустойчивости и просто плохо спроектировано. У меня никогда не было сбоев со стороны HP и Dell. У Supermicro действительно были серьезные сбои, вынудившие нас отказаться от платформы. На HP и Dell я никогда не сталкивался с полным отказом корпуса.

У меня были тепловые явления. Кондиционер отказал на объекте совместного размещения, отправив температуру до 115 ° F / 46 ° C в течение 10 часов.
Скачки напряжения и сбои в линии: потеря одной стороны подачи A / B. Индивидуальные сбои в электроснабжении. В моих конфигурациях блейд-серверов обычно шесть блоков питания, поэтому имеется достаточно предупреждений и резервирования.
Отказы отдельных блейд-серверов. Проблемы с одним сервером не влияют на другие в корпусе.
Возникновение внутри корпуса возгорание ...

Я видел множество сред и имел преимущество установки в идеальных данных условия центра, а также некоторые более грубые места. Что касается HP C7000 и C3000, главное, что нужно учитывать, это то, что шасси полностью модульное. Компоненты спроектированы таким образом, чтобы минимизировать влияние отказа компонента, влияющего на весь блок.

Подумайте об этом так ... Основное шасси C7000 состоит из передней, (пассивной) промежуточной и объединительной плат. Структурный корпус просто удерживает вместе передние и задние компоненты и выдерживает вес системы. Практически все детали можно заменить ... поверьте, я много разбирал. Основные резервы связаны с вентилятором / охлаждением, питанием и сетевым управлением. Процессоры управления ( HP Onboard Administrator ) могут быть объединены в пары для резервирования, однако серверы могут работать без них.

Полностью заполненный корпус - вид спереди. Шесть блоков питания внизу работают на всю глубину корпуса и подключаются к модульной объединительной плате питания в задней части корпуса. Возможна настройка режимов питания: например, 3 + 3 или n + 1. Таким образом, у корпуса определенно есть резервирование питания.

Полностью укомплектованный корпус - вид сзади. Сетевые модули Virtual Connect на задней панели имеют внутреннее кросс-соединение, поэтому я могу потерять ту или иную сторону и по-прежнему поддерживать сетевое подключение к серверам. Имеется шесть блоков питания с возможностью горячей замены и десять вентиляторов с возможностью горячей замены.

Пустой корпус - вид спереди. Обратите внимание, что в этой части корпуса действительно ничего нет. Все соединения проходят через модульную промежуточную панель.

Сборка промежуточной панели удалена. Обратите внимание на шесть источников питания для сборки промежуточной панели внизу.

Сборка промежуточной панели. Здесь происходит волшебство. Обратите внимание на 16 отдельных соединений нижней панели: по одному для каждого из блейд-серверов. У меня были отдельные серверные сокеты / отсеки, которые выходили из строя, не разрушая весь корпус и не влияя на другие серверы.

Объединительная плата (и) источника питания. Блок на 3 диаметра ниже стандартного однофазного модуля. Я изменил распределение питания в своем центре обработки данных и просто заменил объединительную плату источника питания, чтобы справиться с новым методом подачи питания

Повреждение разъема шасси. Этот конкретный корпус упал во время сборки, сломав контакты ленточного соединителя. Это оставалось незамеченным в течение нескольких дней, в результате чего шасси ходового лезвия загорелось ...

Вот обугленные остатки ленточного кабеля промежуточной платы. Это контролировало некоторые параметры температуры корпуса и мониторинг окружающей среды. Блейд-серверы внутри продолжали работать без происшествий. Затронутые части были заменены на досуге во время запланированного простоя, и все было хорошо.

Вероятность блейд-отказа шасси

Теги

Похожие вопросы