На этот вопрос уже есть ответ здесь:
Я изучаю перенос некоторых больших БД из MySQL в Cassandra и пытаюсь понять, как спланировать кластер. Исторически сложилось так, что можно было бы просто купить диски для хранения соответствующих данных, но я не понимаю, как Cassandra использует дисковое пространство по сравнению с пространством RAM.
При планировании кластера возникает вопрос, сколько машин, сколько дисков, ОЗУ и т. Д. На машину. Как мне ответить на это за 1Тб? 10 ТБ? Подробнее?
Basically, the formula for disk per node is D x RF / N x O / C with the variables defined below:
Once you've gotten some numbers, you should target a "disk per node" that's no more than 30% of the available local storage so that you don't have to immediately grow the cluster and so snapshots are possible.
Memory planning depends a lot more on how your schema looks, but you'll want at least 4GB devoted to Cassandra on each node. The OS will be able to use anything beyond that for highly beneficial disk caching. More memory only becomes completely useless once it substantially exceeds the actual amount of data resident on disk.
Планирование мощностей действительно является наукой (с точки зрения математики/статистики). Так как математические модели не получат Вас нигде, действительно необходимо установить испытательный стенд, который может использоваться для ответа на вопросы, так как никто здесь не может предоставить Вам теоретическую модель, которую Вы, кажется, просите.
Как ответить на это:
или наймите профессионала.