В этом гипотетическом примере у нас есть поток данных между несколькими группами инженеров в компании электронной коммерции. Эти команды предоставляют услуги, производят данные, и потребляют данные в разных точках потока.
Например;
Представьте себе, что «командные заказы» обнаруживает проблему с базой данных (нагрузка, задержка и т. д.) - их система мониторинга предупреждает инженера, который начинает исследовать проблему с базой данных.
Тем временем, «командный трафик» также был предупрежден, поскольку они видят всплеск плохих ответов. Они начинают расследование и быстро понимают, что проблема связана с «службой командных заказов, и поднимите заявку на «Командный порядок»
. После всего этого «Командный склад» получает неверные данные. Их мониторинг DW предупреждает их об этой разнице, поэтому они начинают искать первопричину.
Проблема в том, что теперь у нас есть как минимум три инженера, исследующие ту же проблему, и они могут даже не знать, что другие команды делают то же самое. вещь.
Важным моментом является то, что все три группы используют разные системы мониторинга и оповещения; Team Orders отслеживает проблемы с сервером баз данных, а Team Warehouse ищет различия в количестве записей.
Есть и другие подходы; оповещение только наверху конвейера (блокирование эскалации вниз по потоку) или оповещение внизу конвейера для вышестоящих систем.
Существуют ли какие-либо передовые методы, официальные документы, или инженерные решения, которые я могу изучить, чтобы понять различные способы оповещения и эскалации проблем с данными в нескольких группах поддержки / поддержки?
Настоятельно рекомендую "Практика администрирования облачных систем", в которой подробно рассматриваются некоторые из них. Здесь у нас есть 3 уровня мониторинга
Эти + журналы дают нам большую часть того, что нам нужно знать, что происходит, обычно у нас есть один лицо, ответственное за то, чтобы убедиться, что проблема устранена - координирует исправление, но НЕ выполняет техническую работу, которая передается другим лицам. Работа координатора заключается в том, чтобы при устранении проблемы мы не наступали друг другу на ноги.