Так, например, у Вас есть поток журналов, входящих где-нибудь (сервер системного журнала, переданные журналы событий Windows, "Почтовый ящик Типичного Бедного Системного администратора", индексатор Splunk, безотносительно...)
Вообразите этот поток неотсортированных, нефильтрованных журналов, некоторые уникальны и только произойдут один раз в день:
5 Feb 2014 cake: Kernel panic - not syncing: Fatal exception. Backtrace: ....
Другие будут похожи на лавину:
smbd/server.c:open_sockets_smbd(491) Reloading services after SIGHUP : 1 Time(s)
smbd/server.c:open_sockets_smbd(491) Reloading services after SIGHUP : 2 Time(s)
(и еще 100 раз)
Что такое метод дедупликации и подведения итогов названных журналов?
Что-то, что берет весь вышеупомянутый поток и делает чистую сводку:
Критические ошибки:
пирог Kernel panic - not syncing: Fatal exception. Backtrace: ....
Частые неизвестные журналы:
someserver smbd/server.c:open_sockets_smbd(491) Reloading services after SIGHUP : X Time(s)
(повторенный 100 раз)
someotherserver apache GET /some/imaginary/example
(повторенный 35 раз)
и так далее
Обычно это функциональность всех инструментов для анализа логов и для управления логами , именно эти термины я бы ожидал описать процесс преобразования машинных данных в интеллектуальные.
Если вы хотите уменьшить объем данных, которые вы храните еще до того, как анализ уменьшит его управляемые отчеты:
большинство программ поставляется с конфигурационными переключателями, уменьшающими количество и многословие лог-сообщений.
rsyslog предлагает переключатель конфигурации $RepeatedMsgReduction, который превращает такие дублирующиеся сообщения в одно путем записи в журнал "Последняя строка повторяется n раз". Если Вы используете rsyslog, то у Вас также есть возможность довольно просто отфильтровать сообщения . Основным примером отбрасывания сообщений является следующий:
# /etc/rsyslog.cof
# These rules filter messages:
:msg, contains, "smbd/server.c:open_sockets_smbd" ~
Тильда ~
- это инструкция по отбрасыванию сообщений, содержащая строку "smbd/server.c:open_sockets_smbd".