Вот уже 2-3 недели мой основной сервер зависает без видимых причин. До этого работал без проблем более 4 месяцев подряд. Каждый раз простая перезагрузка решает проблему.
Текущая настройка:
Я оставляю сервер с открытым и максимально запущенным PuTTy, когда он зависает (примерно от 1 до 3 раза в день) наблюдаю высокую нагрузку, около 60, все веб-сервисы (HTTP, DNS, SMTP, IMAP, POP3 и т. Д.) Не отвечают. При подключении к PuTTy я могу войти в систему, но приглашение никогда не появляется, то же самое в локальном приглашении (клавиатура + экран). Кроме того, я видел, что зеленые светодиоды на дисках одновременно мигают с частотой около 0,5 Гц - 1 Гц (обычно они мигают намного быстрее и в случайном порядке).
Я сначала подозревал DDoS-атаки и т. Д., Добавил много проверок fail2ban , ограничения TCP-запросов внешнего брандмауэра и т. д. После того, как я проверил версии прошивок (включая P400), обновил все до последних версий, проблема все еще возникает. Я' Мы также синхронизировали root с другим DL380 G5 (такое же оборудование, за исключением 4 дисков по 450 ГБ) для замены сервера, снова та же проблема.
Я проверил, используя top, iostat, iotop, все еще не знаю. При высокой загрузке почти не используется процессор (вверху) и нет активности на диске (iostat).
Теперь мне интересно, может ли драйвер CCISS иметь проблему в версии, которую я использую?
Вот некоторая информация, которая может быть полезна:
Сведения о контроллере:
root@hyperion:~# hpapucli
=> ctrl all show status
Smart Array P400 in Slot 1
Controller Status: OK
Cache Status: OK
Battery/Capacitor Status: OK
=> ctrl all show detail
Smart Array P400 in Slot 1
Bus Interface: PCI
Slot: 1
Serial Number: P61620G9SVM38V
Cache Serial Number: PA2270H9SVI198
RAID 6 (ADG) Status: Enabled
Controller Status: OK
Hardware Revision: D
Firmware Version: 6.86
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 25% Read / 75% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 464 MB
No-Battery Write Cache: Disabled
Cache Backup Power Source: Batteries
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
=> ctrl all show config
Smart Array P400 in Slot 1 (sn: P61620G9SVM38V)
array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (838.3 GB, RAID 1+0, OK)
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SAS, 450 GB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SAS, 450 GB, OK)
physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SAS, 450 GB, OK)
physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SAS, 450 GB, OK)
Сведения о драйвере:
root@hyperion:~# modinfo cciss
filename: /lib/modules/3.2.29/kernel/drivers/block/cciss.ko
license: GPL
version: 3.6.26
description: Driver for HP Smart Array Controllers
author: Hewlett-Packard Company
srcversion: D553A90CDE37829B37A9C27
alias: pci:v0000103Cd00003230sv0000103Csd0000323Dbc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003237bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003215bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003214bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003213bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003212bc*sc*i*
alias: pci:v0000103Cd00003238sv0000103Csd00003211bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003235bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003234bc*sc*i*
alias: pci:v0000103Cd00003230sv0000103Csd00003223bc*sc*i*
alias: pci:v0000103Cd00003220sv0000103Csd00003225bc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Dbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Cbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Bbc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd0000409Abc*sc*i*
alias: pci:v00000E11d00000046sv00000E11sd00004091bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004083bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004082bc*sc*i*
alias: pci:v00000E11d0000B178sv00000E11sd00004080bc*sc*i*
alias: pci:v00000E11d0000B060sv00000E11sd00004070bc*sc*i*
depends:
intree: Y
vermagic: 3.2.29 SMP mod_unload
parm: cciss_tape_cmds:number of commands to allocate for tape devices (default: 6) (int)
parm: cciss_simple_mode:Use 'simple mode' rather than 'performant mode' (int)
верхний вывод при зависании
top - 10:39:45 up 43 min, 2 users, load average: 24.58, 7.14, 2.88
Tasks: 282 total, 1 running, 281 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni, 99.9%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 32894436k total, 17964512k used, 14929924k free, 97732k buffers
Swap: 0k total, 0k used, 0k free, 10694424k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
3928 root 20 0 37164 2988 2444 S 0 0.0 0:00.41 sshd
4478 root 20 0 17608 1540 1060 R 0 0.0 0:07.62 top
1 root 20 0 4316 696 600 S 0 0.0 0:00.98 init
2 root 20 0 0 0 0 S 0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/0
5 root 20 0 0 0 0 S 0 0.0 0:00.02 kworker/u:0
6 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/0
7 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/1
9 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/1
11 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/2
13 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/2
14 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/3
16 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/3
17 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/4
19 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/4
20 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/5
22 root 20 0 0 0 0 S 0 0.0 0:00.01 ksoftirqd/5
23 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/6
25 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/6
26 root RT 0 0 0 0 S 0 0.0 0:00.00 migration/7
28 root 20 0 0 0 0 S 0 0.0 0:00.00 ksoftirqd/7
29 root 0 -20 0 0 0 S 0 0.0 0:00.00 cpuset
30 root 0 -20 0 0 0 S 0 0.0 0:00.00 khelper
31 root 20 0 0 0 0 S 0 0.0 0:00.00 kdevtmpfs
32 root 0 -20 0 0 0 S 0 0.0 0:00.00 netns
33 root 20 0 0 0 0 S 0 0.0 0:00.00 kworker/u:1
495 root 20 0 0 0 0 D 0 0.0 0:05.24 sync_supers
497 root 20 0 0 0 0 S 0 0.0 0:00.00 bdi-default
499 root 0 -20 0 0 0 S 0 0.0 0:00.00 kblockd
654 root 0 -20 0 0 0 S 0 0.0 0:00.00 ata_sff
661 root 20 0 0 0 0 S 0 0.0 0:00.00 khubd
667 root 0 -20 0 0 0 S 0 0.0 0:00.00 md
676 root 20 0 0 0 0 S 0 0.0 0:00.40 kworker/3:1
677 root 20 0 0 0 0 S 0 0.0 0:00.12 kworker/4:1
678 root 20 0 0 0 0 S 0 0.0 0:00.65 kworker/5:1
679 root 20 0 0 0 0 S 0 0.0 0:00.16 kworker/6:1
680 root 20 0 0 0 0 S 0 0.0 0:00.21 kworker/7:1
774 root 0 -20 0 0 0 S 0 0.0 0:00.00 rpciod
826 root 20 0 0 0 0 S 0 0.0 0:00.00 khungtaskd
832 root 20 0 0 0 0 S 0 0.0 0:00.00 kswapd0
DL380 G6 с миграцией P410i
Я также пробовал с другим сервером HP, перемещение жестких дисков напрямую и изменение / dev / cciss / c0d0 *
на / dev / sda *
в / etc / fstab
и / etc / lilo .conf
, все та же проблема.
Сведения о контроллере:
Примечание: Да, кеш отключен, У меня сейчас просто нет батареи для этого сервера.
root@hyperion:~# modprobe sg
root@hyperion:~# hpacucli ctrl all show detail
Smart Array P410i in Slot 0 (Embedded)
Bus Interface: PCI
Slot: 0
Serial Number: 50123456789ABCDE
Cache Serial Number: PAAVP9VYBAU0
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Hardware Revision: C
Firmware Version: 6.64
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Surface Scan Mode: Idle
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 0 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 100% Read / 0% Write
Drive Write Cache: Disabled
Total Cache Size: 512 MB
Total Cache Memory Available: 400 MB
No-Battery Write Cache: Disabled
Battery/Capacitor Count: 0
SATA NCQ Supported: True
Сведения о драйвере:
root@hyperion:~# modinfo hpsa
filename: /lib/modules/3.2.29/kernel/drivers/scsi/hpsa.ko
license: GPL
version: 2.0.2-1
description: Driver for HP Smart Array Controller version 2.0.2-1
author: Hewlett-Packard Company
srcversion: 624DA19A5286F6BDA1645F3
alias: pci:v0000103Cd*sv*sd*bc01sc04i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003356bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003355bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003354bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003353bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003352bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003351bc*sc*i*
alias: pci:v0000103Cd0000323Bsv0000103Csd00003350bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003233bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd0000324Bbc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd0000324Abc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003249bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003247bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003245bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003243bc*sc*i*
alias: pci:v0000103Cd0000323Asv0000103Csd00003241bc*sc*i*
depends:
intree: Y
vermagic: 3.2.29 SMP mod_unload
parm: hpsa_allow_any:Allow hpsa driver to access unknown HP Smart Array hardware (int)
parm: hpsa_simple_mode:Use 'simple mode' rather than 'performant mode' (int)
Возможная причина
Вчера, проводя тесты для различных процессов, я отключил постфикс
, и сервер перестал зависать. Как только я запустил снова, сервер завис. Похоже, это неправильная конфигурация или подозрительные SMTP-запросы.
Серверы серии HP ProLiant G5 - это довольно старое оборудование, которое со всех точек зрения не обслуживается. Срок службы этого оборудования истек в 2009 году.
Однако, если вы не против того, чтобы его не поддерживали, а также тот факт, что система старше четырех поколений, сервер все еще может работать.
В вашей ситуации вы можете работают с плохой версией прошивки на RAID-контроллере. Я рекомендую вам обновить прошивку вашего RAID-контроллера до последней версии (2012 г.) .
Обычно это можно сделать из операционной системы, но Slackware также полностью не поддерживается HP. Если вы найдете способ обновить микропрограммное обеспечение, это, скорее всего, решит проблему.