Ubuntu 12.04.2 Сервер LTS - Случайным образом зависает без входа

Мой сервер случайным образом зависает и становится безразличным без любого входа (dmesg, системный журнал, kern.log, boot.log и сообщения). Я не могу предсказать, когда это собирается произойти. Иногда сервер хорошо работает в течение многих месяцев, и внезапно он начинает происходить снова. На прошлой неделе это произошло больше чем 8 раз. Эта ситуация происходила больше одного года.

Журнал ядра всегда является тем же:

Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.3 fa:16:3e:4e:e0:d5
Jan 24 03:20:34 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.3 fa:16:3e:4e:e0:d5 viaapp
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.9 fa:16:3e:62:09:86
Jan 24 03:20:37 voyager dnsmasq-dhcp[4476]: DHCPACK(br100) 192.168.145.9 fa:16:3e:62:09:86 web-sistemas
Jan 24 03:20:38 voyager dnsmasq-dhcp[4476]: DHCPREQUEST(br100) 192.168.145.16 fa:16:3e:79:dd:f8
Jan 24 03Jan 24 03:22:47 voyager kernel: imklog 5.8.6, log source = /proc/kmsg started.
Jan 24 03:22:47 voyager rsyslogd: [origin software="rsyslogd" swVersion="5.8.6" x-pid="2040" x-info="http://www.rsyslog.com"] start
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's groupid changed to 103
Jan 24 03:22:47 voyager rsyslogd: rsyslogd's userid changed to 101
Jan 24 03:22:47 voyager rsyslogd-2039: Could not open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpuset
Jan 24 03:22:47 voyager kernel: [    0.000000] Initializing cgroup subsys cpu
Jan 24 03:22:47 voyager kernel: [    0.000000] Linux version 3.2.0-60-generic (buildd@toyol) (gcc version 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5) ) #91-Ubuntu SMP Wed Feb 19 03:54:44 UTC 2014 (Ubuntu 3.2.0-60.91-generic 3.2.55)
Jan 24 03:22:47 voyager kernel: [    0.000000] Command line: BOOT_IMAGE=/vmlinuz-3.2.0-60-generic root=UUID=c8dba39e-4d36-4528-9432-d610fce72407 ro crashkernel=384M-2G:64M,2G-:128M console=tty1 console=ttyS0,115200n8

Сервер имеет материнскую плату Intel S5500BC, Xeon E5630 Intel CPU, 32 ГБ RAM, и 4x Барракуда Seagate 2 ТБ 7 200 RPMST2000DM001. Я использую Ubuntu 12.04.2, которую LTS с 3.2.0-60-универсальным ядром, и жесткий диск являются частью мягкого RAID 10 с помощью md. Я также выполняю некоторые виртуальные машины с помощью kvm и libvirt.

В начале я думал, что это было связано с использованием ввода-вывода. Я подчеркнул ЦП, ввод-вывод, жесткий диск ввод-вывод и выделение памяти с помощью многих инструментов, включая dd, напряжение и некоторые сценарии, которые я разработал в ударе/Python. Я никогда не мог копировать проблему.

Все жесткие диски передают в коротких и длинных самопроверках smartctl. Нет никакого сообщения об ошибке.

Я также установил linux-crashdump, но это также ничего не может зарегистрировать. Я запускал скрипт каждые две секунды для сбора вывода датчиков, и температура казалась хорошо - ниже 55 градусов Цельсия.

Я уже заменил материнскую плату, RAM и жесткие диски, но проблема остается. Таким образом я предполагаю, что это не связано с аппаратными средствами, и по любой причине ОС не может записать журналы. Я также протестировал RAM с помощью memtest, и она передала успешно четыре цикла.

Единственная вещь, которую я заметил, является этим, когда я выполняю стресс-тест с stress, Я получил следующий журнал: [28189.472043] ИНФОРМАЦИЯ: задача kvm:5058 заблокирована больше 120 секунд.

Я включил IPMI, и он отвечает, когда сервер зависает. Я привык его для собранных датчиков и также журнала событий. Поскольку это всегда имеет записи журнала о блоке питания, я уже заменил источник питания три раза. IPMI сохраняет меня много времени простоя, так как я использую его для перезагрузки сервера. Сервер подключен к без повреждений, который имеет еще 3 сервера, подключенные к нему. Ни один из других серверов не имеет проблемы.

 bc3 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Power off/down | Asserted
 bc4 | 01/22/2015 | 22:47:41 | Power Unit Pwr Unit Status | Failure detected | Asserted
 bc5 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Power off/down | Deasserted
 bc6 | 01/22/2015 | 22:47:46 | Power Unit Pwr Unit Status | Failure detected | Deasserted
 bc7 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Non-critical going low  |     Deasserted | Reading 0
 bc8 | 01/22/2015 | 22:47:49 | Fan System Fan 3 | Lower Critical going low  | Deasserted | Reading 0
 bc9 | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Non-critical going low  | Asserted | Reading 0 < Threshold 374 RPM
 bca | 01/22/2015 | 22:47:56 | Fan System Fan 3 | Lower Critical going low  | Asserted | Reading 0 < Threshold 330 RPM
 bcb | 01/22/2015 | 22:48:01 | System Event BIOS Evt Sensor | Timestamp Clock Sync |   Asserted
 bcc | 01/22/2015 | 22:48:02 | System Event BIOS Evt Sensor | Timestamp Clock Sync | Asserted
 bcd | 01/22/2015 | 22:48:43 | System Event BIOS Evt Sensor | OEM System boot event | Asserted
 bce | 01/22/2015 | 22:48:51 | Critical Interrupt PCIe Cor Sensor |  | Asserted

Иногда перезагрузки сервера вместо зависают. Но большую часть времени это зависает, и я сам должен перезагрузить его.

А-ч, еще одна информация, сервер иногда зависает во время начальной загрузки, прежде даже загрузить GRUB.

У Вас есть какое-либо предложение того, что происходит или что я могу сделать для движения далее в этой проблеме?

2
задан 24 January 2015 в 17:24
1 ответ

Просто чтобы оставить отзыв об этой проблеме. Я также поменял кабели SATA, и проблема не устранена. После запуска memtest в течение более 24 часов он начал увеличивать счетчик ошибок.

Теперь я пытаюсь выяснить, какой модуль памяти неисправен.

-

Неисправный модуль памяти был заменен и теперь посмотрим, решена ли проблема. Я надеюсь на это, но я не уверен, так как я уже заменил модули памяти.

-

Сервер внезапно перезапустился вчера днем. Не было перебоев в подаче электроэнергии и перезапуск других устройств. Мы все еще пытаемся выяснить, в чем проблема.

0
ответ дан 3 December 2019 в 14:49

Теги

Похожие вопросы