Программный RAID устанавливает диск в состояние неисправности через несколько дней до следующей перезагрузки

Моя система на основе Debian ( jessie ) устанавливает один из моих RAID-дисков в неисправный после нескольких дней работы. Если я перезагружу машину - все будет снова в порядке в течение нескольких дней, пока проблема не появится снова.

Вот моя среда:

Система работает под управлением Debian Jessie 64bit и имеет два физических диска, которые используются как RAID1 с mdadm .

Система также использует RAID1 с mdadm .

11104353] LVM для более гибкой обработки разделов.

Внутри среды VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .

Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.

Система также использует LVM для более гибкой обработки разделов.

В среде VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .

Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.

Система также использует LVM для более гибкой обработки разделов.

В среде VirtualBox 5.1.10 работают две виртуальные машины. Файлы .VDI этих машин также находятся на упомянутом выше LVM .

Теперь у меня возникла проблема: через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллеры устанавливают диск неисправен. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.

Теперь у меня возникла проблема, заключающаяся в том, что через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллер устанавливает диск в состояние неисправности. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует.

Теперь у меня возникла проблема, заключающаяся в том, что через несколько дней на одном из дисков появляются ошибки - по крайней мере, RAID-контроллер устанавливает этот диск как неисправный. За последние два месяца оба физических диска были заменены новыми дисками, но проблема все еще существует. По этой причине мне интересно, были ли это настоящие отказы дисков или программный RAID-контроллер устанавливает диски как неисправные, хотя они в порядке.

Есть ли какие-либо известные ошибки для этой комбинации программного RAID, LVM и Virtualbox?

Некоторые вывод команды:

~ # cat / proc / mdstat

Personalities : [raid1]                                                                                                                                                             
md3 : active raid1 sda3[0] sdb3[2](F)                                                                                                                                               
      1458846016 blocks [2/1] [U_]                                                                                                                                                  

md1 : active raid1 sda1[0] sdb1[2](F)                                                                                                                                               
      4194240 blocks [2/1] [U_]                                                                                                                                                     

unused devices: <none>

~ # mdadm -D / dev / md1

/dev/md1:                                                                                                                                                                           
        Version : 0.90                                                                                                                                                              
  Creation Time : Sat May 14 00:24:24 2016                                                                                                                                          
     Raid Level : raid1                                                                                                                                                             
     Array Size : 4194240 (4.00 GiB 4.29 GB)                                                                                                                                        
  Used Dev Size : 4194240 (4.00 GiB 4.29 GB)                                                                                                                                        
   Raid Devices : 2                                                                                                                                                                 
  Total Devices : 2                                                                                                                                                                 
Preferred Minor : 1                                                                                                                                                                 
    Persistence : Superblock is persistent                                                                                                                                          

    Update Time : Sun Dec  4 00:59:17 2016                                                                                                                                          
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync
       2       0        0        2      removed

       2       8       17        -      faulty   /dev/sdb1

~ # mdadm -D / dev / md3

/dev/md3:
        Version : 0.90
  Creation Time : Sat May 14 00:24:24 2016
     Raid Level : raid1
     Array Size : 1458846016 (1391.26 GiB 1493.86 GB)
  Used Dev Size : 1458846016 (1391.26 GiB 1493.86 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 3
    Persistence : Superblock is persistent

    Update Time : Sun Dec  4 00:59:16 2016
          State : clean, degraded 
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync
       2       0        0        2      removed

       2       8       19        -      faulty   /dev/sdb3

~ # cat / etc / fstab

/dev/md1        /               ext3    defaults        1 1
/dev/sda2       none            swap    sw              
/dev/sdb2       none            swap    sw              
/dev/vg00/usr   /usr            ext4    defaults        0 2
/dev/vg00/var   /var            ext4    defaults        0 2
/dev/vg00/home  /home           ext4    defaults        0 2
#/dev/hdd/data  /data           ext4    defaults        0 2
devpts          /dev/pts        devpts  gid=5,mode=620  0 0
none            /proc           proc    defaults        0 0
none            /tmp    tmpfs   defaults        0 0
0
задан 12 December 2016 в 08:39
1 ответ

Прежде всего, мы хотим увидеть некоторую информацию из ваших системных журналов. Когда ядро ​​извлекает диск из массива RAID, там будет записана некоторая информация. В самом последнем случае, который я смог найти, критической строкой является

Nov 21 08:45:49 lory kernel: md/raid1:md1: Disk failure on sdb2, disabling device.

. Очень вероятно, что какая-то другая информация будет записана немедленно перед , что указывает на элемент метаустройства в Very Serious Trouble; в моем случае они выглядят как

Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413335
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 bf 00 00 18 00
Nov 21 08:45:49 lory kernel: end_request: I/O error, dev sdb, sector 1497413311
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb]  Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 21 08:45:49 lory kernel: sd 1:0:0:0: [sdb] CDB: Write(10): 2a 00 59 40 b6 a7 00 00 18 00

, поэтому было бы очень полезно увидеть эту информацию, по крайней мере, из последнего события RAID, если не из последних двух или трех (пожалуйста, уточните, произошла ли замена жесткого диска между любыми из этих журналов ). Я не могу сказать вам, где это будет регистрироваться в Debian, боюсь, вам нужно это знать.

Во-вторых, я понимаю вашу точку зрения, что вы уже заменили оба жестких диска. Я согласен с тем, что это делает маловероятным, что какой-либо жесткий диск неисправен, хотя я бы все равно использовал smartctl -t long / dev / sdX для каждого из них в качестве приоритета ( не оба одновременно, пожалуйста!). Однако это заставляет меня задуматься о кабельной разводке. В следующий раз, когда это произойдет, вы можете подумать о замене кабелей между двумя дисками при выключении питания для перезагрузки. Если проблема поменялась местами, у вас есть очень сильный кандидат. Или, если вы можете себе это позволить, просто замените кабели неисправного диска на заведомо исправные или совершенно новые.

И в качестве последнего проходного примечания, почему вы также не зеркалируете своп? Наличие зеркального отображения постоянного хранилища, но без подкачки делает весьма вероятным, что вы получите панику ядра и перезагрузитесь, если диск выходит из строя (и виртуальная машина находится под нагрузкой), а время отказа устройства RAID - это именно то время, которое вы не делаете. t требуется автоматическая незапланированная перезагрузка.

0
ответ дан 5 December 2019 в 09:06

Теги

Похожие вопросы