Несколько месяцев назад я использовал устройства zram в формате XFS, связанные вместе с GlusterFS, чтобы создать распределенную / сетевую / реплицируемую файловую систему в памяти на нескольких голых металлических серверах (под управлением RHEL 7.2).
Я используя эту FS как эффективный способ хранения, служить и копировать изображения и видео для моего многосерверного сервера приложений. И мне не удалось найти никаких других решений FS в памяти, поэтому я взломал это.
Он работал хорошо в течение 4 месяцев, но прошлой ночью один из серверов вышел из строя из-за повреждения XFS - и я закончил до необходимости перезагрузки ОС. Я не знаю наверняка, что виновата эта установка .... но шансы есть.
Что приводит меня к ...
1) Есть ли какие-то передовые методы, которым я должен следовать, чтобы сделать эту установку более стабильной ?
2) Могу ли я (или даже должен) настроить систему журналирования, чтобы я мог отслеживать текущее состояние каждого узла zram + xfs? И знайте, что пошло не так, если снова произойдет сбой.
Некоторые тесты производительности:
/ dev / loop0 = https: //erlhelinfotech.wordpress. com / 2013/02/20 / ramdisk-service-for-systemd /
/ dev / zram0 = моя установка zram
/ dev / sdb2 = стандартный диск 7200 об / мин
зрам редко, если когда-либо привыкнет к этому уровень производительности. Возможно, хотя это не доказано, что вы инициировали ошибку где-то в этом стеке хранилища.
Гораздо более традиционным и, предположительно, стабильным является размещение блочных устройств на постоянных носителях. Вы можете быть удивлены производительностью твердотельного накопителя с большим количеством оперативной памяти для кеширования. С дополнительным бонусом в виде постоянства данных.
Вы можете настроить себя для лучшей обработки сбоев. Удаленный системный журнал, удаленная сетевая консоль, пакеты отладки ядра и персонал службы поддержки, способный разобраться во всем этом.
Не бойтесь пробовать разные компоненты, если текущая комбинация не работает. Блочная файловая система, распределенная файловая система, версия ядра.
Файловые системы в памяти не рассчитаны на увеличенное время работы, а скорее на короткие всплески высокой активности IOPS. Вероятно, ваш сервер столкнулся с состоянием выхода из памяти и, будучи неспособным к замене (из-за заблокированной памяти, назначенной устройству RAMDrive), просто вышел из строя.
В любом случае, чтобы контролировать состояние вашего сервера, я предлагаю вам использовать что-нибудь как Zabbix . Вы также можете создать оповещение по электронной почте, которое будет срабатывать при нехватке памяти и / или других ошибках.