События обслуживания GCP

Недавно мы столкнулись с проблемой, когда наш главный экземпляр Dataproc перезагружался, и некоторые из наших служб не запускались должным образом; мы не уверены, что вызвало эту перезагрузку, но журналы предполагают, что это обслуживание GCP. Хотя мы, вероятно, могли бы использовать Stackdriver Monitoring для обнаружения и реагирования на эти типы событий, это подняло вопрос о том, есть ли у GCP услуга, которая может использоваться для уведомления нас о техническом обслуживании до или во время техобслуживания принимаются. Любые советы будут оценены!

3
задан 22 January 2019 в 22:22
2 ответа

Как говорит касперд, как правило, виртуальные машины (необязательно) переносятся в реальном времени при обслуживании, и, возможно, вы наблюдали аппаратный сбой, но есть исключения, включая экземпляры с ускорителями графического процессора, как описано здесь: События технического обслуживания GCP

Google предоставляет способ получать уведомления о незавершенных мероприятиях технического обслуживания, опрашивая URL-адрес следующим образом: curl http: //metadata.google.internal/computeMetadata/v1/instance/main maintenance-event -H "Metadata-Flavor: Google" --- ответ NONE указывает на отсутствие ожидающих или выполняющихся событий.

Они также обеспечивают основу для сценария оболочки на Python, который позволяет избежать повторного опроса этого URL: https : //github.com/GoogleCloudPlatform/python-docs-samples/blob/master/compute/metadata/main.py

1
ответ дан 3 December 2019 в 06:26

GCP не перезагружает виртуальные машины для планового обслуживания. Вместо этого виртуальная машина переносится в реальном времени, чтобы избежать перезагрузок и простоев виртуальной машины во время обслуживания.

Compute Engine предлагает динамическую миграцию, позволяющую поддерживать работу экземпляров виртуальных машин даже при возникновении системного события хоста, такого как обновление программного обеспечения или оборудования. Compute Engine live переносит ваши запущенные экземпляры на другой хост в той же зоне, а не требует перезагрузки виртуальных машин. Это позволяет Google выполнять техническое обслуживание, которое является неотъемлемой частью защиты и надежности инфраструктуры, не прерывая работу ваших виртуальных машин. [ источник ]

Но если оборудование, на котором работает ваша виртуальная машина, выйдет из строя, ваша виртуальная машина может перезагрузиться.

2
ответ дан 3 December 2019 в 06:26

Теги

Похожие вопросы