Голый металл для больших данных: могут ли все они работать вместе в одном кластере? [дублировать]

На этот вопрос уже есть ответ:

Я ОЧЕНЬ новый системный администратор (класс '16), и меня попросили создать кластер больших данных с 3 серверами PowerEdge без операционной системы. У меня есть следующий запрос на добавление в кластер:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R (библиотеки для Spark и Hadoop) *Zeppelin *Cassandra

Я хотел бы знать, могут ли все они «хорошо играть вместе», так как я знаю очень мало больших данных, и поиск приводит к большому количество страниц «x VS y», а не «x AND y».И существует ли предпочтительный отраслевой стандарт?

Заранее спасибо за совет!

0
задан 16 March 2018 в 16:09
1 ответ

Конечно, они могут сосуществовать на этих серверах, хотя обычно вы используете один тип серверов для хранения фактических данных, а другой - для выполнения тяжелой вычислительной работы. Также немного нестандартно запускать Cassandra DB на тех же серверах, но опять же, вы можете сделать все это, это будет работать, это не совсем то, как я бы это сделал.

В случае серверов еще не заказаны, и вы можете повлиять на их технические характеристики. Я бы попробовал создать банк больших медленных дисков для данных (обычно 3,5-дюймовые диски с несколькими ТБ, 7,2 об / мин), а затем несколько твердотельных накопителей или диски со скоростью 10 об / мин для БД. и вычислительная работа. Запуск всего этого с одного типа диска не всегда имеет смысл. Это также будет довольно интенсивно использовать память, не экономьте на этом, также вам, вероятно, понадобится разумное количество ядер процессора, я бы сказал по крайней мере 12 или более на сервер для всей этой работы.

В любом случае, я надеюсь, что это поможет, и посмотрите на Cloudera и Ambari для их сред Hadoop, они не бесплатны, но могут избавить вас от многих головных болей.

1
ответ дан 4 December 2019 в 16:00

Теги

Похожие вопросы