Диски для hadoop, что посоветуете? [закрыто]

что вы порекомендуете относительно дисков для Hadoop?

Рекомендуете ли вы использовать SAS или просто подключить диск через SATA? Или, может быть, что-то еще? Каковы плюсы и минусы каждого варианта?

(Решение о размере диска принято, и на каждом сервере будет около 5-6 дисков по 2 ТБ)

1
задан 26 July 2010 в 08:56
4 ответа

Современные установки Hadoop обычно идут для нескольких дисков SATA на уровне конечного пользователя на поле.

Точно, сколько дисков на узел во многом зависит от того, каково Ваше приложение. В Yahoo, например, они - главным образом размер диска, связанный, таким образом, много дисков на узел имеет смысл. Я видел скрытую технологию, которая может насыщать большое количество дисковых каналов, таким образом, несколько объединительных плат с большим количеством дисков имеют смысл там.

Если бы Вы только запускаете, я рекомендовал бы или SATA 6 x 2 ТБ или SATA 12 x 2 ТБ. Существуют некоторые хорошие поля Supermicro, которые дают Вам четыре узла на сингле 2U шасси с 12 дисками на передней стороне, которая хороша и компактна, но наличие только дисков 2 x 2 ТБ на узел может быть видом ограничения. Тот же самый 2U форм-фактор может также разместить 1 или 2 узла с теми же 12 дисками на заглушке. Так как само шасси стоит денег, это может иметь значение.

Другое соображение состоит в том, что многие дата-центры ограничены питанием на квадратный фут. Power израсходовал, становится разделенным два пути в кластере Hadoop, некоторых к ЦП/памяти и и значительная часть к хранению вращения дисков. Так как эти пределы, вероятно, помешают Вам заполнять стойку супер компактными 4 x полями узла, Вы могли бы скорее идти вперед и получить единственные поля узла так, чтобы можно было добавить диски позже, как Вы считаете целесообразным.

Если Вы не ограничены дисковым пространством, необходимо рассмотреть общую сетевую пропускную способность. Наличие большего количества NIC на диск хорошо здесь, таким образом, квадратические поля хороши.

В том же духе, каковы Ваши требования к памяти? 24 ГБ RAM для двойной четырехъядерной машины являются довольно стандартными в последнее время, но Вы, возможно, нуждались бы в больше или смогли бы сойти с рук меньше. Наличие большего общего количества памяти через то же количество дисков могло бы быть хорошо для Вашего приложения.

3
ответ дан 3 December 2019 в 16:57

Ну, так как Вы используете Hadoop, дублирование находится в приложении, следовательно Вы не должны должны быть думать о дублировании на каждом узле относительно устройства хранения данных. Это должно, конечно, быть сохранено с хорошими стандартными программами о том, как принести узел онлайн снова в событии отказа устройства хранения данных.

Я думаю 2xSATA, диски в RAID0 должны сделать это. Но я действительно не знаю, получите ли Вы что-нибудь на этом недостатке производительности с Hadoop, он может только добавить сложность.

1
ответ дан 3 December 2019 в 16:57

В этой ситуации единственное связанное с производительностью беспокойство, которое я имел бы, - то, что диски SAS обычно ведут себя лучше в сценариях высокой загрузки - но только Вы знаете свою ожидаемую загрузку.

То, что я сказал бы, - то, что Вы хотите выбрать диски промышленного класса, какой бы ни путь, которым Вы идете, Hadoop, может быть довольно интенсивным в течение 24-часового периода, и Вы хотите диск, который был разработан для 24/365 операции, и многие более дешевые диски просто не сделают этого надежно.

WD2003FYYS WD высоко ценится.

1
ответ дан 3 December 2019 в 16:57

Дизайн с отказом в памяти и Hadoop произведет впечатление. Я выполняю все свои кластеры с недисками предприятия и не имел никаких отказов в моих 24/7 операциях. Снижение расходов хорошо-взвешивает любые потенциальные отказы, кроме того, большинство дисков идет с 5-летними гарантиями, таким образом, Вы просто отправляете их, чтобы получить RMAd и идти дальше.

По моему опыту, я обычно заканчиваю тем, что обновил диски, прежде чем они умрут, но YMMV.

Все узлы данных должны работать как ext2, не выполняйте журналирование, ни используйте любой RAID вообще... Hadoop является Вашим набегом с тем, как Вы устанавливаете уровни репликации.

1
ответ дан 3 December 2019 в 16:57

Теги

Похожие вопросы