VPS на основе KVM дает сбой каждые 3-7 дней. Это проблема на стороне VPS или узла?

Мне интересно, может ли быть так, что VPS является основной причиной сбоев, которые происходят каждые 3-7 дней в ночное время с 03:00 до 04:00. (ошибка ядра или что-то еще), или это узел, на котором размещен виртуальный сервер (проблема с бэкэндом).

Подробности: VPS на основе KVM с CentOS 7, xfs размещен у поставщика VPS, у которого есть спина -концевая и внутренняя инфраструктура хранилища.

Обычно это происходит следующим образом, когда запущенный процесс kthreadd сразу переходит в D -статус (т.е. непрерывный сон), а затем мы получаем такие сообщения: заблокирован более 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] Мне интересно, может ли быть так, что VPS является основной причиной сбоев, которые происходят каждые 3-7 дней ночью с 03:00 до 04:00 (ошибка ядра или что-то еще), или это узел, на котором виртуальный сервер размещен (проблема с бэкэндом).

Подробности: VPS на основе KVM с CentOS 7, xfs размещен у поставщика VPS, у которого есть серверная часть и внутренняя инфраструктура хранилища.

Обычно это происходит следующим образом , сразу же выполняющийся процесс kthreadd переходит в состояние D (т.е. в непрерывный сон), а затем мы получаем такие сообщения, как: заблокирован более чем на 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] Мне интересно, может ли быть так, что VPS является основной причиной сбоев, которые происходят каждые 3-7 дней ночью с 03:00 до 04:00 (ошибка ядра или что-то еще), или это узел, на котором виртуальный сервер размещен (проблема с бэкэндом).

Подробности: VPS на основе KVM с CentOS 7, xfs размещен у поставщика VPS, у которого есть серверная часть и внутренняя инфраструктура хранилища.

Обычно это происходит следующим образом , сразу же выполняющийся процесс kthreadd переходит в состояние D (т.е. в непрерывный сон), а затем мы получаем такие сообщения, как: заблокирован более чем на 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] или это узел, на котором размещен виртуальный сервер (проблема с серверной частью).

Подробности: VPS на основе KVM с CentOS 7, xfs, размещенный у поставщика VPS, у которого есть серверная часть и внутренняя инфраструктура хранения.

Обычно это происходит следующим образом: сразу запущенный процесс kthreadd переходит в D -статус (т.е. непрерывный сон), а затем мы получаем такие сообщения: заблокирован более 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] или это узел, на котором размещен виртуальный сервер (проблема с серверной частью).

Подробности: VPS на основе KVM с CentOS 7, xfs, размещенный у поставщика VPS, у которого есть серверная часть и внутренняя инфраструктура хранения.

Обычно это происходит следующим образом: сразу запущенный процесс kthreadd переходит в D -статус (т.е. непрерывный сон), а затем мы получаем такие сообщения: заблокирован более 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] а затем мы получаем такие сообщения: заблокирован более чем на 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] а затем мы получаем такие сообщения: заблокирован более чем на 120 секунд. и высокий LA:

21 мая 03:08:01 vps root: root 2 0,0 0,0 0 0? S 18 мая 0:00 [kthreadd] 21 мая 03:10:01 vps root: root 2 0.0 0.0 0 0? S 18 мая 0:00 [kthreadd] 21 мая 03:12:01 vps root: root 2 0.0 0.0 0 0? S 18 мая 0:00 [kthreadd] 21 мая 03:14:01 vps root: root 2 0.0 0.0 0 0? D 18 мая 0:00 [kthreadd] 21 мая, 03:15:16 vps kernel: INFO: задача kthreadd: 2 заблокирована более 120 секунд. 21 мая 03:15:16 ядро ​​vps: kthreadd D ffffffffffffffff 0 2 0 0x00000000 21 мая, 03:15:16 ядро ​​vps: [] kthreadd + 0x2b2 / 0x2f0 21 мая 03:16:01 vps root: root 2 0.0 0.0 0 0? D 18 мая 0:00 [kthreadd] 21 мая 03:18:01 vps root: root 2 0.0 0.0 0 0? D 18 мая 0:00 [kthreadd] 21 мая 03:20:02 vps root: root 2 0.0 0.0 0 0? D 18 мая 0:00 [kthreadd]

здесь у нас есть трассировка звонков:

18 мая 04:14:37 vps kernel: INFO: задача kthreadd: 2 заблокирована более 120 секунд. 18 мая, 04:14:37 vps kernel: "echo 0> / proc / sys / kernel / hung_task_timeout_secs" отключает это сообщение. 18 мая 04:14:37 ядро ​​vps: kthreadd D ffffffffffffffff 0 2 0 0x00000000 18 мая 04:14:37 ядро ​​vps: ffff88023413b4e0 0000000000000046 ffff880234120b80 ffff88023413bfd8 18 мая 04:14:37 vps ядро: ffff88023413bfd8 ffff88023413bfd8 ffff880234120b80 ffff88023413b628 18 мая 04:14:37 ядро ​​vps: ffff88023413b630 7fffffffffffffff ffff880234120b80 ffffffffffffffff 18 мая 04:14:37 ядро ​​vps: Отслеживание вызовов: 18 мая, 04:14:37 ядро ​​vps: [] ​​расписание + 0x29 / 0x70 18 мая, 04:14:37 ядро ​​vps: [] schedule_timeout + 0x209 / 0x2d0 18 мая, 04:14:37 ядро ​​vps: []? x2apic_send_IPI_mask + 0x13 / 0x20 18 мая, 04:14:37 ядро ​​vps: []? try_to_wake_up + 0x1b6 / 0x300 18 мая, 04:14:37 ядро ​​vps: [] wait_for_completion + 0x116 / 0x170 18 мая, 04:14:37 ядро ​​vps: []? wake_up_state + 0x20 / 0x20 18 мая, 04:14:37 ядро ​​vps: [] flush_work + 0xfc / 0x1c0 18 мая, 04:14:37 ядро ​​vps: []? move_linked_works + 0x90 / 0x90 18 мая, 04:14:37 ядро ​​vps: [] xlog_cil_force_lsn + 0x8a / 0x210 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] _xfs_log_force_lsn + 0x6e / 0x2f0 [xfs] 18 мая, 04:14:37 ядро ​​vps: []? __slab_free + 0x10e / 0x277 18 мая, 04:14:37 ядро ​​vps: [] xfs_log_force_lsn + 0x2e / 0x90 [xfs] 18 мая, 04:14:37 ядро ​​vps: []? xfs_iunpin_wait + 0x19 / 0x20 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] __xfs_iunpin_wait + 0xa7 / 0x150 [xfs] 18 мая, 04:14:37 ядро ​​vps: []? wake_atomic_t_function + 0x40 / 0x40 18 мая, 04:14:37 ядро ​​vps: [] xfs_iunpin_wait + 0x19 / 0x20 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] xfs_reclaim_inode + 0x8c / 0x350 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] xfs_reclaim_inodes_ag + 0x267 / 0x390 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] xfs_reclaim_inodes_nr + 0x33 / 0x40 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] xfs_fs_free_cached_objects + 0x15 / 0x20 [xfs] 18 мая, 04:14:37 ядро ​​vps: [] prune_super + 0xe8 / 0x170 18 мая, 04:14:37 ядро ​​vps: [] shrink_slab + 0x165 / 0x300 18 мая, 04:14:37 ядро ​​vps: []? vmpressure + 0x21 / 0x90 18 мая, 04:14:37 ядро ​​vps: [] do_try_to_free_pages + 0x3c2 / 0x4e0 18 мая, 04:14:37 ядро ​​vps: [] try_to_free_pages + 0xfc / 0x180 18 мая, 04:14:37 ядро ​​vps: [] __alloc_pages_nodemask + 0x7fd / 0xb90 18 мая, 04:14:37 ядро ​​vps: [] copy_process.part.25 + 0x163 / 0x1610 18 мая, 04:14:37 ядро ​​vps: []? kthread_create_on_node + 0x140 / 0x140 18 мая 04:14:37 ядро ​​vps: [] do_fork + 0xe1 / 0x320 18 мая, 04:14:37 ядро ​​vps: [] kernel_thread + 0x26 / 0x30 18 мая 04:14:37 vps ядро: [] kthreadd + 0x2b2 / 0x2f0 18 мая, 04:14:37 ядро ​​vps: []? kthread_create_on_cpu + 0x60 / 0x60 18 мая 04:14:37 ядро ​​vps: [] ret_from_fork + 0x58 / 0x90 18 мая, 04:14:37 ядро ​​vps: []? kthread_create_on_cpu + 0x60 / 0x60

Уловка с грязными страницами не помогла.

Только полная перезагрузка помогает привести сервер в рабочее состояние.

Не могли бы вы помочь понять, возникла ли проблема на стороне VPS или узла?

С Уважением, Алекс.

2
задан 24 May 2016 в 14:52
2 ответа

Вероятно, это процесс резервного копирования или что-то влияющее на хранилище, происходящее на уровне хоста . Это находится вне вашего контроля, и вам следует подтолкнуть поставщика VPS к решению.

Если они не могут решить эту проблему, подумайте о том, чтобы обратиться в другое место.

5
ответ дан 3 December 2019 в 10:38

Это потому, что вы используете Redhat / CentOS 7.2 и xfs. Ядро нестабильно, как было с 7.1. Текущее решение - перейти на ext4, если вы хотите использовать CentOS 7.2.

-2
ответ дан 3 December 2019 в 10:38

Теги

Похожие вопросы