Голый металл для больших данных: могут ли все они работать вместе в одном кластере? [дублировать]

Question

Голый металл для больших данных: могут ли все они работать вместе в одном кластере? [дублировать]

На этот вопрос уже есть ответ:

Можете ли вы помочь мне с планированием емкости? 3 ответы

Я ОЧЕНЬ новый системный администратор (класс '16), и меня попросили создать кластер больших данных с 3 серверами PowerEdge без операционной системы. У меня есть следующий запрос на добавление в кластер:

*Hadoop2 *YARN *Java 7&8 *Spark *SBT *Maven *Scala *P7zip *Pig *Hive *R (библиотеки для Spark и Hadoop) *Zeppelin *Cassandra

Я хотел бы знать, могут ли все они «хорошо играть вместе», так как я знаю очень мало больших данных, и поиск приводит к большому количество страниц «x VS y», а не «x AND y».И существует ли предпочтительный отраслевой стандарт?

Заранее спасибо за совет!

0

linux configuration cluster hadoop

задан Beth L 16 March 2018 в 16:09

Ссылка

1 ответ

Похожие вопросы

score 1 · Accepted Answer · 4 December 2019 в 16:00

Конечно, они могут сосуществовать на этих серверах, хотя обычно вы используете один тип серверов для хранения фактических данных, а другой - для выполнения тяжелой вычислительной работы. Также немного нестандартно запускать Cassandra DB на тех же серверах, но опять же, вы можете сделать все это, это будет работать, это не совсем то, как я бы это сделал.

В случае серверов еще не заказаны, и вы можете повлиять на их технические характеристики. Я бы попробовал создать банк больших медленных дисков для данных (обычно 3,5-дюймовые диски с несколькими ТБ, 7,2 об / мин), а затем несколько твердотельных накопителей или диски со скоростью 10 об / мин для БД. и вычислительная работа. Запуск всего этого с одного типа диска не всегда имеет смысл. Это также будет довольно интенсивно использовать память, не экономьте на этом, также вам, вероятно, понадобится разумное количество ядер процессора, я бы сказал по крайней мере 12 или более на сервер для всей этой работы.

В любом случае, я надеюсь, что это поможет, и посмотрите на Cloudera и Ambari для их сред Hadoop, они не бесплатны, но могут избавить вас от многих головных болей.

Голый металл для больших данных: могут ли все они работать вместе в одном кластере? [дублировать]

Теги

Похожие вопросы