VMware ESXi 5 Низкая производительность, сотни ошибок, связанных с задержкой ввода-вывода. [закрыто]

У нас есть автономный сервер ESXi5 со следующими характеристиками оборудования: - Supermicro X8DTL {{1 }} - Intel Xeon (R) CPU E5506 2,13 ГГц - ОЗУ 25 ГБ - 1 ТБ жесткого диска (зеркальный RAID, локальный SATA)

У нас работает около 17 виртуальных машин с ~ 512 МБ каждая. Запуск серверов web + db.

Примерно месяц назад у нас произошел сбой сервера, при расследовании мы обнаружили ошибки, похожие на эти, в /scratch/log/vobd.log:

2013-02-21T23:30:14.054Z: [scsiCorrelator] 1657239493834us: [vob.scsi.device.io.latency.improved] Device mpx.vmhba2:C0:T0:L0 performance has improved. I/O latency reduced from 1310595 microseconds to 260642 microseconds.
2013-02-21T23:30:17.888Z: [scsiCorrelator] 1657243328201us: [vob.scsi.device.io.latency.improved] Device mpx.vmhba2:C0:T0:L0 performance has improved. I/O latency reduced from 260642 microseconds to 85292 microseconds.
2013-02-21T23:30:39.275Z: [scsiCorrelator] 1657264714482us: [vob.scsi.device.io.latency.high] Device mpx.vmhba2:C0:T0:L0 performance has deteriorated. I/O latency increased from average value of 43610 microseconds to 1310310 microseconds.
2013-02-21T23:30:39.275Z: [scsiCorrelator] 1657263440772us: [esx.problem.scsi.device.io.latency.high] Device mpx.vmhba2:C0:T0:L0 performance has deteriorated. I/O latency increased from average value of 43610 microseconds to 1310310 microseconds.
2013-02-21T23:30:42.796Z: [scsiCorrelator] 1657268235408us: [vob.scsi.device.io.latency.improved] Device mpx.vmhba2:C0:T0:L0 performance has improved. I/O latency reduced from 1310310 microseconds to 257850 microseconds.
2013-02-21T23:30:44.392Z: [scsiCorrelator] 1657269831493us: [vob.scsi.device.io.latency.improved] Device mpx.vmhba2:C0:T0:L0 performance has improved. I/O latency reduced from 257850 microseconds to 86289 microseconds.
2013-02-21T23:32:29.119Z: [scsiCorrelator] 1657374559512us: [vob.scsi.device.io.latency.high] Device mpx.vmhba2:C0:T0:L0 performance has deteriorated. I/O latency increased from average value of 43613 microseconds to 1405607 microseconds.
2013-02-21T23:32:29.120Z: [scsiCorrelator] 1657373285533us: [esx.problem.scsi.device.io.latency.high] Device mpx.vmhba2:C0:T0:L0 performance has deteriorated. I/O latency increased from average value of 43613 microseconds to 1405607 microseconds.
2013-02-21T23:32:35.673Z: [scsiCorrelator] 1657381113191us: [vob.scsi.device.io.latency.improved] Device mp

В день сбоя у нас было почти 5000 таких ошибок, так как затем у нас было от 2 до 500 (хотя полного сбоя сервера не было). На гостевых виртуальных машинах мы наблюдаем медленное чтение / запись на диск при нормальном использовании. Такая простая вещь, как команда find на /, вызывает большие всплески в диаграмме производительности.

Мы заменили HD и RAID-контроллер. Сервер с идентичной настройкой и аналогичным количеством виртуальных машин не имеет этих проблем. До первого сбоя (с ошибками 5k) производительность была хорошей, однако журналы по-прежнему показывают одну и ту же ошибку на месте ~ 30-40 раз в день. За несколько дней до этого сбоя мы сделали тонкое выделение большого (160 ГБ) жесткого диска для гостевой виртуальной машины.

Ниже приводится (дата, количество всплывающих окон сообщения об ошибке, среднее значение задержек, зарегистрированных до ошибки (MS) и среднее значение после. (MS))

2012-10-24    16           976     138,666
2012-10-28    12         1,020      40,421
2012-11-05    16         1,167     273,223
2012-11-06    20         1,226      89,181
2012-11-07    40         1,314     224,957
2012-11-08    48         1,378     165,349
2012-11-09    42         1,441     174,061
2012-11-10    26         1,519     218,381
2012-11-11     8         1,567     112,229
2012-11-12    24         1,593     233,350
2012-11-13    54         1,641     193,695
2012-11-14    80         1,692     222,456
2012-11-15    32         1,738     243,640
2012-11-16    66         1,776     325,366
2012-11-17    30         1,816     176,468
2012-11-18    38         1,850     264,176
2012-11-20    12         1,846     117,589
2012-11-21    34         1,868     252,732
2012-11-22    44         1,895     166,636
2012-11-23    12         1,926     123,632
2012-11-26     4         1,892      98,791
2012-11-27    14         1,899     184,382
2012-11-28    20         1,916     178,908
2012-11-29    10         1,923     134,338
2012-11-30     6         1,923      69,203
2012-12-01     2         1,924      60,052
2012-12-02     4         1,919     122,631
2012-12-03     8         1,898     126,051
2012-12-04    54         1,909     199,758
2012-12-05   462         2,109     394,950
2012-12-06    36         2,228     191,166
2012-12-07    64         2,245     204,348
2012-12-08    32         2,271     294,890
2012-12-10   140         2,290     302,435
2012-12-11   314         2,386     311,973
2012-12-12   150         2,475     261,258
2012-12-13   160         2,532     236,761
2012-12-14   114         2,585     206,043
2012-12-15    84         2,618     211,221
2012-12-16    52         2,640     256,677
2012-12-17    18         2,637     180,975
2012-12-18    62         2,649     228,785
2012-12-19    92         2,669     199,357
2012-12-20   160         2,707     275,119
2012-12-21   124         2,749     245,460
2012-12-22     2         2,763     102,838
2012-12-26   144         2,736     302,383
2012-12-27   140         2,776     292,725
2012-12-28    64         2,813     274,609
2012-12-30   106         2,811     231,112
2012-12-31   148         2,853     295,416
2013-01-01    12         2,881     204,615
2013-01-04     4         2,860      90,300
2013-01-09   246         2,849     279,765
2013-01-10   278         2,909     301,014
2013-01-11   242         2,966     294,417
2013-01-12    92         3,006     308,232
2013-01-14   248         3,036     271,435
2013-01-15   426         3,172     233,094
2013-01-16   388         3,313     276,185
2013-01-17   342         3,423     282,632
2013-01-18   298         3,517     255,919
2013-01-19   232         3,579     287,905
2013-01-20     8         3,611     128,877
2013-01-21     2         3,614     121,942
2013-01-22   142         3,667     265,338
2013-01-23   402         3,738     281,091
2013-01-24   332         3,826     280,295
2013-01-25   178         3,892     270,747
2013-01-26   280         4,018     319,368
2013-01-27   106         4,075     293,760
2013-01-28   610         4,187     213,410
2013-01-29   784         4,700     222,077
2013-01-30   386         5,236     258,133
2013-01-31  4580         8,261   1,681,902
2013-02-01     2        11,211     339,135
2013-02-02    10        38,909   1,200,144
2013-02-04    18        88,573   2,692,687
2013-02-05   190        67,454   2,094,093
2013-02-06   460        58,534   1,858,435
2013-02-07    98        57,683   1,795,912
2013-02-08    62        54,012   1,671,730
2013-02-09    88        52,681   1,711,773
2013-02-10    66        51,016   1,549,408
2013-02-11    84        48,885   1,639,267
2013-02-12   206        48,364   1,829,969
2013-02-13   562        48,651   1,774,433
2013-02-14   170        48,957   1,655,395
2013-02-15   124        47,055   1,550,294
2013-02-16   140        46,099   1,588,326
2013-02-17   110        45,283   1,485,211
2013-02-18    34        43,836   1,356,562
2013-02-19   326        43,608   1,484,757
2013-02-20   224        43,894   1,581,129
2013-02-21   296        43,626   1,568,687

На данный момент мы в значительной степени находимся на потеря, лучший ответ, который у нас есть, заключается в том, что, поскольку мы используем диски SATA (что, вероятно, является ужасной идеей), мы сталкиваемся с большим узким местом. Мы планируем перейти на SAN с дисками SAS, но хотим убедиться, что проблема не преследует нас.

Спасибо

1
задан 22 February 2013 в 02:14
2 ответа

Честно говоря, вы могли решить свою проблему !

  • Вы определили последствия проблемы ... и возможный источник.
  • Вы проверили, что может работать на аналогичной установке.
  • Вы наблюдали плохое поведение на одной машине.
  • Вы НЕ заменяли шасси или объединительную плату. Вероятно, в этом и кроются ваши проблемы.
  • Вы купили Supermicro, у которой нет такого же уровня полировки или согласованности контроля качества, как у IBM, HP или Dell.

Это случается. Замените сервер и двигайтесь дальше.

4
ответ дан 3 December 2019 в 17:10

Не совсем вопрос, но ...

Возможно, ваш RAID-контроллер переключился в режим сквозной записи. Одной из причин может быть неисправный BBU (или цикл обучения). Это может значительно снизить производительность.

1
ответ дан 3 December 2019 в 17:10

Теги

Похожие вопросы