Вы не сказали, распараллелило ли это рабочее предварительное ветвление или. Ни что работает в процессе - например, php.
Вы могли попытаться захватить базовый файл и посмотреть на отслеживание стека в gdb, или зарегистрировать %D и искать то, что занимает много времени для завершения, мог бы дать что-то вроде ключа к разгадке - но если Вы предоставляете больше информации о том, что Вы настроили его, мог бы помочь.
Факт апачский экземпляр hogging весь ЦП также израсходовал БОЛЬШУЮ память, указывает на плохо написанный код. При взятии дикого удара в темноте - это мог бы быть плохо записанный запрос с незавершенным языком, читающим в слишком большом количестве данных.
Если вы просто хотите узнать, как работает Hadoop, я бы порекомендовал взять один из доступных дистрибутивов на виртуальную машину. Это небольшие обучающие среды, которые позволяют вам работать с псевдораспределенным кластером, работающим внутри одного узла.
Могут быть и другие; это только те, о которых я могу прийти в голову.
Если вы хотите создать свою собственную виртуальную машину, ответ: это зависит.
Вам, вероятно, будет хорошо, если вы начнете с 8- 16 ГБ ОЗУ, несколько сотен гигабайт дискового пространства и 2-4 ядра процессора. Этого было бы достаточно, чтобы заставить вас работать в псевдораспределенной конфигурации.
Если вы говорите о создании небольшого кластера, вам, вероятно, понадобится 4 узла: 1 именной узел (2–4 ГБ памяти, 1-2 процессора), 3 узла данных (4-8 ГБ памяти, столько места, сколько вы хотите / нужно). Этого было бы достаточно, чтобы получить работающую среду HDFS и Mapreduce, И дать вам опыт настройки и запуска кластера. Если вы пойдете по этому пути, вы, вероятно, захотите проверить Cloudera Manager или Ambari с Hortonworks .
РЕДАКТИРОВАТЬ:
Чуть не забыл: vmware Serengeti может вас заинтересовать, поскольку вы работаете в инфраструктуре VMware.