Существует ли способ определить вид журнала (так, чтобы это мог быть синтаксический анализ правильно), если у меня нет предшествующей информации о типе (для, например, системный журнал, апачский журнал, журнал IIS) журнала, это? Я пытаюсь записать фильтр Grok для журналов, но я понятия не имею, что представляют поля.
Это первые несколько строк от журналов:
14;1074585600;147.33.10.112;89ccfad2c4bbc02c91ed66055a235fca;/ls/index.php? &id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=40;hXXX://YYY.shop4.cz/ls/index.php?&id=62&view=1,2,3,4,6,9&sort=,13,4&pozice=20
12;1074585600;57.66.66.138;17bff4c98f96413dbe748c9cd8822da9;/ct/?c=158;hXXX://YYY.shop3.cz
14;1074585600;194.196.100.86;e9455a109435408eb7b8e170d636d024;/klient/seznam.php;hXXX://YYY.shop4.cz/klient/zpravy.php
11;1074585600;66.77.73.176;88dc79e8eb5968d936a7d563af55bd08;/dt/?id=9354;
10;1074585601;158.196.177.79;cbf84093e4740423436abaf3c1a65ebc;/;
Конечно, похоже, что это журнал из европейских конференций по машинному обучению и европейских конференций по принципам и практике обнаружения знаний в базах данных Discovery Challenge 2005. У них есть страница с описанием формата данных и FAQ о данных на сайте.
(Я могу сказать, что это были старые метки времени unix, просто взглянув на них... 2004 vintage, это...)
Это не какой-то стандартный формат журнала (и, BTW, syslog - это протокол, а не формат журнала)
С точки зрения методологии, я начал с простого просмотра строк. Я мог сказать, что второе поле - это дата Unix-эпохи, просто увидев размер чисел. Очевидно, что третье поле - адрес IPv4. Пятое поле - 32 шестнадцатеричные цифры, так что, скорее всего, это сумма MD5. Следующее поле выглядит как иерархическая часть URL и запроса. Последнее поле выглядит как URL, и я склонен предположить, что это референт.
Таким образом, оно выглядит как лог веб-сервера.
Я искал хэши с помощью Google, потому что мне было любопытно узнать, появились ли эти данные где-нибудь еще. Конечно, один из хэшей появился на страницах, на которые я ссылался выше
.