уникальные посетители на нескольких серверах

Проблема была с кодом. @resource синтаксис является, по-видимому, не совместимым кластером. Разработчик попробовал другой метод, и он работает правильно.

0
задан 19 November 2009 в 14:20
2 ответа

Вы не можете определить фактических уникальных посетителей - людей от журнала доступа. Если требуется сделать предположение, что каждый уникальный клиентский IP-адрес является уникальным посетителем, то можно просто подать все журналы в течение периода времени, который Вы хотите через cut -d ' ' -f 1 |sort -u |wc -l (принятие стандартного формата журнала, где клиентский IP является первым полем). Это не принимает во внимание контроль, пауков, NAT, прокси или динамические IP-адреса, но Вы не можете сделать намного лучше, чем это, не проводя (намного) больше времени, чем он взял бы для установки awstats.

0
ответ дан 5 December 2019 в 17:48

Трудно отследить уникальных посетителей при помощи журналов доступа Apache, но если Вы хотите быструю сырую меру, которую можно сделать с оболочкой, я использовал и протестировал следующее.

Таким образом в течение 3 дней в праве в ноябре до сих пор, Аналитика считает, что было 1 586 уникальных посетителей моего сайта.

Эта часть оболочки дает мне 1 402 посетителя, который не далек, учитывая все обстоятельства. Нижняя строка, журналы трудно пройти, но это сыро и относительно быстро

Это работает над объединенным форматом Apache только, необходимо изменить его, если это не то, что Вы продолжаете работать

Я отформатировал его по нескольким строкам здесь для объяснения его немного лучше.

awk -F'"' '{print $1,$6}' < log | \
    sed -e 's/\[\([0-9]\+\/[A-Za-z]\+\/[0-9]\+\).*\]/\1/' | \
    awk '{print $4, $0}' | \
    sort | uniq | \
    awk '{print $1}' | \
    uniq -c

СТРОКА 1: печатает IP, метку времени и Агент пользователя клиента от журнала доступа

СТРОКА 2: удалите часть "времени" метки времени, таким образом, мы можем сгруппировать строки по дате

СТРОКА 3: переместите дату в запуск строки, таким образом, мы можем отсортировать по дате (это не необходимо для единственного файла журнала, но можно изменить сценарий для использования нескольких файлов и вида по дате, это помогает здесь),

СТРОКА 4: вид | uniq в основном виды, все строки и удаляют дубликаты (т.е. несколько хитов из того же IP, в тот же день с тем же агентом пользователя считается теперь как 1 хит - это - волшебство),

СТРОКА 5: Только распечатайте часть даты

СТРОКА 6: Используйте uniq, считающий функцию, чтобы сгруппировать эти строки датой и сказать нам, сколько находится в нем

Демонстрационный вывод:

538 16/Nov/2009
559 17/Nov/2009
305 18/Nov/2009

Это очень очень сыро, но это легко и быстрый выход и легко присоединиться к нескольким файлам журнала.

0
ответ дан 5 December 2019 в 17:48

Теги

Похожие вопросы