Моя система на основе Debian ( jessie ) устанавливает один из моих RAID-дисков в неисправный после нескольких дней работы. Если я перезагружу машину - все будет снова в порядке в течение нескольких дней, пока проблема не появится снова.
Вот моя среда:
Система работает под управлением Debian Jessie 64bit и имеет два физических диска, которые используются как RAID1 с mdadm .
Система также использует RAID1 с mdadm .
11104353] LVM для более гибкой обработки разделов.
Внутри среды VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .
Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.
Система также использует LVM для более гибкой обработки разделов.
В среде VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .
Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.
Система также использует LVM для более гибкой обработки разделов.
В среде VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .
Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.
Теперь у меня возникла проблема, заключающаяся в том, что через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллер устанавливает диск в состояние неисправности. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.
Теперь у меня возникла проблема, заключающаяся в том, что через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллер устанавливает этот диск как неисправный. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует. По этой причине мне интересно, были ли это настоящие отказы дисков или программный RAID-контроллер устанавливает диски как неисправные, хотя они в порядке.
Есть ли какие-либо известные ошибки для этой комбинации программного RAID, LVM и Virtualbox?
Некоторые вывод команды:
~ # cat / proc / mdstat
Personalities : [raid1]
md3 : active raid1 sda3[0] sdb3[2](F)
1458846016 blocks [2/1] [U_]
md1 : active raid1 sda1[0] sdb1[2](F)
4194240 blocks [2/1] [U_]
unused devices: <none>
~ # mdadm -D / dev / md1
/dev/md1:
Version : 0.90
Creation Time : Sat May 14 00:24:24 2016
Raid Level : raid1
Array Size : 4194240 (4.00 GiB 4.29 GB)
Used Dev Size : 4194240 (4.00 GiB 4.29 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 1
Persistence : Superblock is persistent
Update Time : Sun Dec 4 00:59:17 2016
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0
Number Major Minor RaidDevice State
0 8 1 0 active sync
2 0 0 2 removed
2 8 17 - faulty /dev/sdb1
~ # mdadm -D / dev / md3
/dev/md3:
Version : 0.90
Creation Time : Sat May 14 00:24:24 2016
Raid Level : raid1
Array Size : 1458846016 (1391.26 GiB 1493.86 GB)
Used Dev Size : 1458846016 (1391.26 GiB 1493.86 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 3
Persistence : Superblock is persistent
Update Time : Sun Dec 4 00:59:16 2016
State : clean, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0
Number Major Minor RaidDevice State
0 8 3 0 active sync
2 0 0 2 removed
2 8 19 - faulty /dev/sdb3
~ # cat / etc / fstab
/dev/md1 / ext3 defaults 1 1
/dev/sda2 none swap sw
/dev/sdb2 none swap sw
/dev/vg00/usr /usr ext4 defaults 0 2
/dev/vg00/var /var ext4 defaults 0 2
/dev/vg00/home /home ext4 defaults 0 2
#/dev/hdd/data /data ext4 defaults 0 2
devpts /dev/pts devpts gid=5,mode=620 0 0
none /proc proc defaults 0 0
none /tmp tmpfs defaults 0 0
Прежде всего, мы хотим увидеть некоторую информацию из ваших системных журналов. Когда ядро извлекает диск из массива RAID, там будет записана некоторая информация. В самом последнем случае, который я смог найти, критической строкой является
Nov 21 08:45:49 lory kernel: md/raid1:md1: Disk failure on sdb2, disabling device.
. Очень вероятно, что какая-то другая информация будет записана немедленно перед , что указывает на элемент метаустройства в Very Serious Trouble; в моем случае они выглядят как
Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413335
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 bf 00 00 18 00
Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413311
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 a7 00 00 18 00
, поэтому было бы очень полезно увидеть эту информацию, по крайней мере, из последнего события RAID, если не из последних двух или трех (пожалуйста, уточните, произошла ли замена жесткого диска между любыми из этих журналов ). Я не могу сказать вам, где это будет регистрироваться в Debian, боюсь, вам нужно это знать.
Во-вторых, я понимаю вашу точку зрения, что вы уже заменили оба жестких диска. Я согласен с тем, что это делает маловероятным, что какой-либо жесткий диск неисправен, хотя я бы все равно использовал smartctl -t long / dev / sdX
для каждого из них в качестве приоритета ( не оба одновременно, пожалуйста!). Однако это заставляет меня задуматься о кабельной разводке. В следующий раз, когда это произойдет, вы можете подумать о замене кабелей между двумя дисками при выключении питания для перезагрузки. Если проблема поменялась местами, у вас есть очень сильный кандидат. Или, если вы можете себе это позволить, просто замените кабели неисправного диска на заведомо исправные или совершенно новые.
И в качестве последнего проходного примечания, почему вы также не зеркалируете своп? Наличие зеркального отображения постоянного хранилища, но без подкачки делает весьма вероятным, что вы получите панику ядра и перезагрузитесь, если диск выходит из строя (и виртуальная машина находится под нагрузкой), а время отказа устройства RAID - это именно то время, которое вы не делаете. t требуется автоматическая незапланированная перезагрузка.