Как исследовать причину 100% -ного события ЦП, которое длилось несколько часов?

Вчера процессор моего VPS-сервера на базе Xen перешел на 100% в течение двух часов, а затем вернулся в нормальное состояние, что казалось естественным.

Я проверил журналы, включая syslog, auth.log и другие, и ничего необычного не показалось.

  • В это время казалось, что сервер работает нормально, о чем свидетельствуют входящие в систему люди, полученные электронные письма и т. Д.
  • Использование памяти, диска и сети в это время было нормальным.
  • Я не перезагружал сервер несколько недель и не работал над ним в то утро.
  • Я постоянно обновляю его, добавляя обновления безопасности и тому подобное. Сейчас 12.04 LTS.
  • Он запускает nginx, mysql и postfix вместе с некоторыми другими функциями.

Примерно в начале события системный журнал содержит следующие записи:

Apr 27 07:55:34 ace kernel: [3791215.833595] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=2962 PROTO=TCP SPT=49299 DPT=465 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace dovecot: pop3-login: Disconnected (no auth attempts): rip=209.126.230.73, lip=___
Apr 27 07:55:34 ace kernel: [3791216.012828] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=40 TOS=0x00 PREC=0x00 TTL=244 ID=58312 PROTO=TCP SPT=49299 DPT=25 WINDOW=1024 RES=0x00 SYN URGP=0
Apr 27 07:55:34 ace kernel: [3791216.133155] [UFW LIMIT BLOCK] IN=eth0 OUT= MAC=___ SRC=209.126.230.73
 DST=___ LEN=76 TOS=0x00 PREC=0x00 TTL=244 ID=63315 PROTO=UDP SPT=49299 DPT=123 LEN=56

Но опять же, я получаю их все время. Это просто указывает на то, что UFW / iptables успешно заблокировал некоторые нежелательные соединения. Это не должно быть связано.

У меня есть ежедневная резервная копия, которая выполняется чуть менее чем за 2 часа до начала этого «события». Казалось, что он работает нормально, хотя вызывает более высокую нагрузку на сервер (но не загрузку ЦП), чем обычно, что указывает на возможную проблему перегрузки ввода-вывода. Но это не совпало с событием 100% CPU.

Мой вопрос: как я могу выяснить причину подобного события, которое произошло в прошлом, учитывая, что оно больше не происходит?

8
задан 28 April 2014 в 05:24
1 ответ

Если у вас есть графики загрузки ЦП, они могут дать более полное представление о том, что ЦП делал в это время. Например, он мог ожидать ввода-вывода диска, это называется IOWAIT .

Если они недоступны, и вы не можете найти причину, этот инцидент вполне может быть отнесен на счет проблем на хост-сервере. Возможно, проблема с шумным соседом: некорректно функционирует виртуальная машина на том же хосте или аппаратный сбой (например, диск, это может привести к высокому IOWAIT).

Есть служебная программа, называемая поверх, она будет вести подробный учет ваших процессов и показывать ответ здесь. atop будет делать «снимок» всего вашего процесса и использования ресурсов каждые xx минут (настраивается). Это не поможет вам сейчас, но поможет, если это повторится снова. Дополнительную информацию см. На верхнем веб-сайте: https://www.atoptool.nl/

P.s. Ubuntu 12.04 достиг статуса конца жизненного цикла, и вам следует подумать об обновлении машины, поскольку для этой версии больше нет доступных обновлений безопасности. См. Цикл выпуска Ubuntu: https://ubuntu.com/about/release-cycle

1
ответ дан 13 January 2020 в 20:37

Теги

Похожие вопросы