Недостатки системы мониторинга текущего состояния и прогнозирования отказов [закрыто]

У меня вопрос, какие хорошие решения (программное / аппаратное обеспечение) были разработаны и применяются на предприятии для онлайн-прогнозирования сбоев? Zabbix, Openstb, Cacti и подобные альтернативы? Не могли бы вы перечислить еще? Можете ли вы описать, какие у них есть преимущества и недостатки, особенно в аспекте прогнозирования отказов?

Я хочу знать их недостатки и внести некоторые улучшения с помощью модели \ алгоритмов. Если вы плохо разбираетесь в концепции прогнозирования сбоев в сети, обратитесь к следующему описанию. Если вы это уже знаете, просто пропустите.

Онлайн-прогнозирование сбоев - это подход к оценке того, произойдет ли входящий отказ в ближайшем будущем, и когда произойдет сбой, и в каком компоненте (возможно, программном или аппаратном) произойдет сбой. Это краткосрочное прогнозирование путем отслеживания сбоев, отчетов об обнаруженных ошибках, симптомов необнаруженных ошибок, аудита сбоев (активного поиска сбоев, например, поиска несогласованности inodes в файловых системах Linux).

Более подробное введение и соответствующие подходы описаны в статье https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf

Большое спасибо!

1
задан 23 January 2016 в 08:46
1 ответ

Сравнение систем мониторинга: https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems

Я не думаю, что какая-то система мониторинга имеет прогноз отказа прямо из коробки. Предоставленная вами статья слишком академична. Вы все равно можете построить его на вершине какой-либо системы мониторинга, которая будет предоставлять данные / события / сбои для прогнозов вашего алгоритма сбоев.

Некоторые системы мониторинга имеют:

  • прогнозирование показателей (прогнозирование тенденций). Это не предсказание неудачи. В хорошей полуакадемической статье есть Zabbix - прогнозирование Zabbix .

  • обнаружение аномалий - опять же, это не прогноз, это обнаружение. Самым известным OSS для обнаружения аномалий является Skyline . Системы на основе RRD (Cacti) используют алгоритм RRD Холта Винтера . Также в Graphite есть некоторые математические функции , которые можно использовать для обнаружения аномалий.

Если вы хотите реализовать / улучшить обнаружение сбоев, сделайте его универсальным:

  • входной уровень - некоторая концепция плагина, поэтому пользователь должен иметь возможность использовать / писать собственный плагин, который будет извлекать данные из конкретной системы мониторинга
  • , уровень обнаружения сбоев - существует множество алгоритмов, поэтому каждый из них должен быть настраиваемым
  • выходным слоем - аналогично входному слою,так что событие о прогнозируемом сбое может вернуться в систему мониторинга или в какую-либо другую систему предупреждений

Пожалуйста, сделайте это удобным для пользователя (не академического) и используйте Github. Пингуйте меня, когда вам нужно это протестировать. : -)

1
ответ дан 3 December 2019 в 23:52

Теги

Похожие вопросы