Каково главное отключение электричества, которого Вы были частью?

Идея ITIL имеет большой смысл, к сожалению, по моему опыту, это часто - инструмент, чтобы позволить штату поддержки/операций заканчивать их путь и замедляться, служащие бизнесу изменения.

7
задан 7 April 2011 в 03:40
6 ответов

Я - 'часть' отключений электричества почти каждый день (Контролируйте каналы WAN для 44 сайтов). 'Небольшие' являются теми, которые составляют меньше чем 5 минут и большую часть времени идут 'незамеченные' (NOC только контролирует отключения электричества выше, чем 5 минут, по некоторым причинам). Я пытаюсь общаться с сайтом, чтобы видеть, была ли это внутренняя проблема, и проверьте журналы маршрутизатора каждый раз, когда проблема 'неизвестна'.

Я нахожу, что Коммуникация является ключевой (и это - преуменьшение!) при контакте с отключениями электричества. НЕ ОЖИДАЙТЕ, ЧТОБЫ быть НАЗВАННЫМИ, поскольку Вы диагностируете или пытаетесь узнать то, что точно происходит. Удостоверьтесь, что Вы передаете это, Вы знаете, что они снижаются, и Вы работаете над ним. Дайте им период времени того, когда Вы возвратитесь к ним, чтобы дать им обновления на ситуации (ETR). Не позволяйте им зависающий, чтобы думать, что Вы забыли о них, удостоверьтесь, что они ЗНАЮТ, что кто-то смотрит на их проблему. Вы называете их, таким образом, они не должны звонить Вам.

К счастью самыми длинными, сайт вниз находился под моими часами, составили 7 часов (это - в рабочем дне 10:00 - 17:00). Это должно было быть короче на несколько часов, если бы не отсутствие хорошей коммуникации между всеми участвующими сторонами. В значительной степени проблема не наращивалась правильно, и из-за предположения, что 'кто-то работал над нею' проблема, взял (относительно для сайта) навсегда, чтобы быть разрешенным.

4
ответ дан 2 December 2019 в 23:21
  • 1
    Ваше право о коммуникационной части, но I' v всегда ненавидел ту первую часть, среднюю понятное дело вниз чувак. Мне всегда нравится вопрос " что является ETA" и в моем уме I' m вид размышления как bofh ЭТА - когда я могу зафиксировать его! –  tony roth 28 May 2010 в 08:23
  • 2
    Снова, +1 для коммуникации. @tony, то же самое происходит со мной, должен просто усмехнуться и перенести его, доверять мне it' s хуже не передача вообще :-) –  Josh 28 May 2010 в 14:51

У нас был канал греющего пара, который пробежал наш разрыв дата-центра. Очень горячий, конденсация и изоляция асбеста повсеместно. Отключение питания в течение многих недель во время очистки.

Хорошо, материалом моей группы был соединенный BGP, загрузка, сбалансированная между несколькими дата-центр. У нас была некоторая часть наших пользователей, видят 30-секундное замораживание, прежде чем их текущая транзакция была передана. Многие из других проектов видели отключения электричества до нескольких дней со всеми включающими много сверхурочного времени для помощи всем остальным.

Уроки извлечены: Сделайте свою непрерывность, планирующую сначала, затем создайте свою систему для поддержки заключений:

  • Если Вы не можете терпеть неделю времени простоя, плана и практиковать Вашу передачу. Iinstead основных сайтов / сайтов обработки отказа, имейте синий/золотой и вращайтесь каждые две недели, чтобы гарантировать, что все обновляется и доступно.
  • Если Вы не можете терпеть полчаса приблизительно к одному дню, балансу загрузки между активными сайтами. Вы проведете меньше времени и усилия, настраивающего его, чем Вы потратите под давлением, пытающимся сделать восстановление на время.
  • Если Вы не можете терпеть минуты времени простоя, необходимо перейти к большому усилию для того, чтобы сделать очень высокую Доступность. Лучший выбор состоит в том, чтобы нанять опытного консультанта.
  • Только для окончания иерархии, если Вы не можете терпеть секунды времени простоя, Вам нужны специализированные аппаратные средства, а также специализированный дизайн. Вы лучше быть экспертом
6
ответ дан 2 December 2019 в 23:21

Я посещал собеседование в компании, которая, оказалось, в настоящее время сталкивалась со всем сетевым отключением электричества в их 50 + станция пользователя. Я решил его в течение минут и добрался для встречи их текущего системного администратора и их компании поддержки IT, которую они призвали, потому что он не мог решить его - они потратили все утро попытку разработать то, что шло не так, как надо.

Предыдущий парень установил два беспроводных маршрутизатора в режиме моста и включил их обоих в проводную сеть. Они были едва в диапазоне друг друга, таким образом, у них был цикл в их сети, которая пришла и ушла, поскольку прием варьировался.

Само собой разумеется, я получил задание и затем реализовал некоторый вход управления изменениями, как только я запустил.

4
ответ дан 2 December 2019 в 23:21

Я испытал недельное отключение электричества нашей всей сети сервера. Мы имели дело с ним путем создания сети дублирования, для предотвращения той точно той же проблемы в будущем, но в то время как отключение электричества происходило, мы использовали старый сервер, который мы настроили в удаленном месте. Мы учились всегда иметь план резервного копирования.

1
ответ дан 2 December 2019 в 23:21

Вероятно, самый большой был 4-дневным отключением электричества сети все-HQ, вызванным обновлением крупной сети.

Самая большая подсказка, которую я имею, должна иметь установленный устойчивый процесс управления инцидентами. Существует блестящая презентация от Скоростной конференции 2008 года, я занялся адаптацией общей Системы управления чрезвычайными ситуациями, используемой работниками скорой помощи (http://en.wikipedia.org/wiki/Incident_Command_System) к инцидентам типа IT также: http://en.oreilly.com/velocity2008/public/schedule/detail/1525

Мы ворчали экстенсивно от этого при разработке нашего собственного внутреннего инцидентного процесса "Sev1". Это подчеркивает коммуникацию, единицу команды, четкую передачу обязанностей и другой большой материал.

Я также вставлю разъем для Прозрачного блога Времени работы: http://www.transparentuptime.com/ - это - сфокусированный онлайн-сервис, но его общие правила того, как/какой связаться для отключения электричества, относятся к внутреннему материалу IT-ey также. http://www.transparentuptime.com/2010/03/guideline-for-postmortem-communication.html конкретно - мы сделали, чтобы менеджер ворчал от этого, и начали отсылать связь в том формате, и Вы не будете верить положительному ответу.

1
ответ дан 2 December 2019 в 23:21

Как хорошо синхронизированный. Я просто возвратился от чрезвычайного прохождения до одного из сайтов, которые мы поддерживаем.

До пользовательского влияния это не было основное влияние, но это имело потенциал, чтобы быть. Как часть текущего проекта для миграции некоторых сайтов прочь нашей поддержки мы создали новый доверяемый домен. После обширного тестирования мы прошедший предварительную подготовку, чтобы первый сайт мигрировал на новый домен, которым мы все еще управляли бы. Таким образом, ночь перемещения приходит, и мы запускаем путем миграции одного из двух DCS к новому домену. Это идет прекрасное. Мы перемещаем группы безопасности и Учетные записи пользователей. Это идет прекрасное также, и состав группы обновляется правильно. Мы перемещаем Файловый сервер и выполняем перевод безопасности для обновления ACLs. Снова все подходит. Переместите Серверы приложений и обновите IAS для VPN и никаких проблем. Мы затем перемещаем проверочного пользователя, ПК и пользователь сохраняют их настройки профиля и могут получить доступ ко всем сетевым ресурсам отлично. Мы затем перемещаем другой DC. Мы затем идем, перемещают остающиеся компьютеры и половину сбоя. Мы находим, что локальный брандмауэр XP работает. Я сразу продвигаю GPO на сайт выключать его, но должен буду ожидать компьютерное обновление. Этого не происходит достаточно быстро, и пользователи начинают прибывать. Они не могут войти в исходный домен, потому что оба DCS находятся на новом.

Скорее затем попытайтесь повторно добавить один DC назад к исходному домену, который мы обновляем правила брандмауэра предоставить доступу к другому удаленному DCS для исходного домена и взять 3 часа езды на сайт.

Продолжение на небольшой сон: GPO для отключения локального брандмауэра теперь выставил. Не думая я захватываю все компьютерные объекты и продвигаю миграцию. Я забыл, что это СБРАСЫВАЕТ компьютерные объекты. Таким образом, теперь все успешно перемещенные ПК сокращаются из домена.

Для усугубления положения локальная администраторская передача, которую мы развертываем с нашим изображением, не работает из-за длинной уведенной локальной технологии, которые сбрасывают их.

Я провел выходные, вручную добавляющие все ПК к новому домену после использования загрузочного диска для стирания локальной администраторской передачи.

Извлеченные уроки:

  • Ожидайте неожиданное и попытайтесь ожидать все потенциальные проблемы.
  • Централизуйте управление вещами как локальные пароли администратора и настройки брандмауэра
    • GPOS и предпочтения групповой политики
  • Займите другую минуту, чтобы удостовериться, что Вы делаете вещи правильно перед нажатием.

Извините, что было долго обветрено.

0
ответ дан 2 December 2019 в 23:21