Вы могли попытаться выполнить tcpdump или tshark при запущении скрипта с
tcpdump -i eth0 -n -p icmp
Где-нибудь необходимо видеть, что вывод tcpdump останавливается или в исходящем запросе ping или во входящем ответе ping. Это, конечно, можно сделать и на клиенте и на сервере и видеть если оба запроса машин и ответ правильно. Так как Вы используете связывание, Вы могли бы хотеть выследить-f/var/log/syslog или/var/log/messages и видеть, регистрирует ли ядро что-то об обработке отказа связи к ведомому NIC.
Это не проблема файловой системы, а физические ограничения дисков. Вот некоторые данные:
Для дисков SATA обычно указывается частота неисправимых ошибок чтения (URE) 10 ^ 14. Это означает, что 1 байт на 12 ТБ будет безвозвратно потерян , даже если диски работают нормально.
Это означает, что без RAID вы потеряете данные, даже если ни один из дисков не выйдет из строя - RAID - это ваш единственный вариант.
Если вы выберете RAID5 (общая емкость n-1, где n = количество дисков), этого все равно будет недостаточно. С RAID5 10 ТБ, состоящим из 6 жестких дисков по 2 ТБ, вероятность отказа одного диска в год составляет 20%, а с отказом одного диска - , из-за URE вероятность успешного восстановления RAID5 и восстановления составляет 100%. ваших данных.
В основном с большой емкостью дисков и относительно высоким URE вам нужен RAID6 для защиты даже в случае сбоя одного диска.
Прочтите это: http://www.zdnet.com/blog / storage / why-raid-5-Stop-working-in-2009/162
Сделайте себе одолжение и используйте RAID для своих дисков, можно даже программный RAID с mdadm. Также подумайте, почему вы «часто получаете ошибки на ваших дисках» - это ненормально, за исключением случаев, когда вы используете дешевые диски SATA для настольных ПК вместо дисков RAID.
После этого файловая система больше не так важна - ext4 и xfs оба являются хорошим выбором.
Я постепенно добавляю новые диски большего размера
Поскольку вам интересно использовать LVM и вы хотите работать с несколькими дисками, простым ответом было бы просто использовать функцию зеркалирования, которая часть LVM. Просто добавьте все физические тома в свой LVM. При создании логического тома передайте параметр - mirrors
. Это дублирует ваши данные.
Другой вариант - просто настроить несколько пар RAID1. Затем добавьте все тома RAID1 в качестве PV в свою группу VG. Затем, когда вы захотите расширить хранилище, просто купите пару дисков.
Мне повезло с ZFS, вы можете проверить, доступна ли она в любом используемом вами дистрибутиве. Честное предупреждение, это, вероятно, потребует перестройки всей вашей системы, но это дает действительно хорошую производительность и отказоустойчивость.
Вам действительно следует использовать RAID 5, 6, 10, 50 или 60. Вот некоторые ресурсы, которые помогут вам начать:
справочная информация о RAID
howto's & setup
Просмотрите мои восхитительные ссылки для дополнительных ссылок на RAID: http://delicious.com/slmingol / raid
Если вы действительно беспокоитесь о повреждении данных, я бы порекомендовал файловую систему с контрольной суммой, такую как zfs и btrfs - хотя обратите внимание, что btrfs все еще считается в разработке и не готов к производству.
Нет гарантии, что данные, прочитанные (даже успешно прочитанные) с диска, будут правильными. У блоков есть контрольные суммы, но это простые контрольные суммы, которые не всегда обнаруживают ошибки. Новые файловые системы, такие как ZFS, прикрепляют к файлам более эффективные контрольные суммы и могут (и, как сообщается, делают) вылавливать и исправлять ошибки данных, не замеченные жестким диском или контроллером RAID.
Как @ c2h5oh говорит , Unrecoverable критичен - это означает, что диск уже пытался и не смог повторно прочитать сектор.
По моему опыту,как только диск начинает создавать неустранимые ошибки чтения (URE), некоторые данные теряются навсегда, и ваша единственная надежда - немедленно создать резервную копию всех данных с помощью GNU ddrescue , который может повторить попытку работы с неисправными секторами, а также пропустить невосстановимые. .
Предполагая, что у вас есть резервные копии, они вполне могли дать сбой из-за URE и наверняка будут иметь некоторые поврежденные файлы, поэтому вам придется собрать полный набор данных из различных резервных копий одной и той же файловой системы.
другие ответы, рекомендующие ZFS, заслуживают внимания, поскольку его непрерывная очистка данных и функции RAID помогут сохранить ваши данные в большей безопасности в будущем - хотя и не заменяют резервные копии, которые также защищают от ошибок пользователей и администраторов.
Я бы использовал только LVM если вам не нужны снимки - он не так хорошо интегрируется с RAID, не включает очистку данных / контрольные суммы данных, и вам все еще нужны резервные копии, поэтому что-то вроде ZFS, вероятно, будет лучшим вариантом. См. этот ответ о проблемах и рисках LVM для получения дополнительной информации.