Разрешено техническое обслуживание производства в рабочее время [закрыто]

Недавно я начал управлять небольшим стартапом. Как большинство небольших стартапов, я думаю, мы делали то, что хотели, в процессе производства, когда думали, что это нормально. Люди осторожны, и все работает очень хорошо. Нам также удалось очень быстро решить проблемы, за что клиенты очень благодарны.

Однако вчера у нас возникла проблема, когда администратор самостоятельно решил изменить имя сервера и обновить программное обеспечение, чтобы привести его в соответствие с вещами. Разработчики были уведомлены, однако изменение имени убило нашу систему очереди сообщений, которая, в свою очередь, фактически отключила нас на несколько часов. Из-за этого произошла серия каскадных сбоев, и виртуальную машину, на которой размещалась очередь сообщений, фактически пришлось убить и создать новую виртуальную машину. Никому не понравилось.

Сначала это следовало проверить в непроизводственной среде.

Мне было интересно, какое обслуживание разрешено в производственной среде в критические для бизнеса времена? Некоторые, я могу представить, однако, сколько?

3
задан 22 January 2016 в 18:07
2 ответа

Техническое обслуживание можно выполнять в любое время, если это не влияет на бизнес-системы.

В вашем случае проблем, вызвавших критический сбой, проблема заключалась не в том, что это невозможно сделать, а в том, что либо у вас нет уведомления о процессе изменения, либо администратор не следил за ним. О том, что произошло изменение имени, не сообщили людям, ответственным за бесперебойную работу службы. Если администратор является владельцем службы (а в малом бизнесе это очень вероятно), то его пригодность для этой роли необходимо изучить, поскольку это его работа - определить влияние любых изменений, влияющих на его службу.

Тестовые среды хороши, но без тщательного обслуживания не решат все проблемы. Хотя, безусловно, тестирование изменений в тесте является лучшей практикой, оно не заменяет план возврата (который также следует протестировать).

Наконец, еще один урок, который следует усвоить, заключается в том, что разработчики не являются администраторами. Я подозреваю, что, как вы сказали, «разработчики были уведомлены». Бьюсь об заклад, их не спросили «что будет, если имя машины изменится?». Я бы хотя бы получил электронное письмо от разработчиков, в котором говорилось бы, что изменение имени машины не повлияет на приложение.

4
ответ дан 3 December 2019 в 05:23

Вы извлекаете уроки из ошибки и предпринимаете шаги для анализа воздействия изменений среды, прежде чем их вносить.

Документация здесь имеет большое значение, но также попытайтесь оценить, почему этот тип изменения может иметь такое широкое влияние. Были ли какие-то жестко запрограммированные в приложениях? Есть ли место для улучшения работы системы?

Изменение имени хоста - это не мелочь, но и не то, что должно вас полностью сломать.

2
ответ дан 3 December 2019 в 05:23

Теги

Похожие вопросы