У меня вопрос, какие хорошие решения (программное / аппаратное обеспечение) были разработаны и применяются на предприятии для онлайн-прогнозирования сбоев? Zabbix, Openstb, Cacti и подобные альтернативы? Не могли бы вы перечислить еще? Можете ли вы описать, какие у них есть преимущества и недостатки, особенно в аспекте прогнозирования отказов?
Я хочу знать их недостатки и внести некоторые улучшения с помощью модели \ алгоритмов. Если вы плохо разбираетесь в концепции прогнозирования сбоев в сети, обратитесь к следующему описанию. Если вы это уже знаете, просто пропустите.
Онлайн-прогнозирование сбоев - это подход к оценке того, произойдет ли входящий отказ в ближайшем будущем, и когда произойдет сбой, и в каком компоненте (возможно, программном или аппаратном) произойдет сбой. Это краткосрочное прогнозирование путем отслеживания сбоев, отчетов об обнаруженных ошибках, симптомов необнаруженных ошибок, аудита сбоев (активного поиска сбоев, например, поиска несогласованности inodes в файловых системах Linux).
Более подробное введение и соответствующие подходы описаны в статье https://s3-us-west-2.amazonaws.com/mlsurveys/88.pdf
Большое спасибо!
Сравнение систем мониторинга: https://en.wikipedia.org/wiki/Comparison_of_network_monitoring_systems
Я не думаю, что какая-то система мониторинга имеет прогноз отказа прямо из коробки. Предоставленная вами статья слишком академична. Вы все равно можете построить его на вершине какой-либо системы мониторинга, которая будет предоставлять данные / события / сбои для прогнозов вашего алгоритма сбоев.
Некоторые системы мониторинга имеют:
прогнозирование показателей (прогнозирование тенденций). Это не предсказание неудачи. В хорошей полуакадемической статье есть Zabbix - прогнозирование Zabbix .
обнаружение аномалий - опять же, это не прогноз, это обнаружение. Самым известным OSS для обнаружения аномалий является Skyline . Системы на основе RRD (Cacti) используют алгоритм RRD Холта Винтера . Также в Graphite есть некоторые математические функции , которые можно использовать для обнаружения аномалий.
Если вы хотите реализовать / улучшить обнаружение сбоев, сделайте его универсальным:
Пожалуйста, сделайте это удобным для пользователя (не академического) и используйте Github. Пингуйте меня, когда вам нужно это протестировать. : -)