Вперед веб-прокси существует, который проверяет и повинуется robots.txt на удаленных доменах?

Вся конфигурация и файлы данных являются тем же на i386 и amd64. Та же процедура передачи сайта к другому серверу работала бы просто великолепно здесь.

Удостоверьтесь, что Вы копируете существующую систему. Проверьте то резервное копирование! Создание двух резервных копий не является плохой идеей также. Экспорт списка портов, которые Вы установили, является хорошей идеей также (pkg_info -ao | grep "/" > PkgList.txt или подобный).

В зависимости от того, какая версия Вы выполняете теперь, и точно какое программное обеспечение, Вы можете на месте обновлять до новой версии; просто установите основу и ядро. Иногда это достаточно, обычно необходимо восстановить порты для новых библиотек (portupgrade -af после установки portupgrade порта). Если Вы хотите попробовать этот маршрут, я высоко предлагаю использовать одну из Ваших резервных копий для попытки этого на другой машине прежде, чем сделать его на живом сервере.

1
задан 3 January 2012 в 23:52
1 ответ

Я не уверен, почему обеспечение соответствия robots.txt будет задачей прокси: сканер (робот) должен извлеките robots.txt и следуйте инструкциям, содержащимся в этом файле, пока прокси-сервер возвращает правильные данные robots.txt , а поисковый робот делает правильные вещи с этими данными, и до тех пор, пока сканер поддерживает использование прокси, вы получите все преимущества прокси без каких-либо дополнительных действий.

**

Тем не менее, я не знаю ни одного прокси это делает то, о чем вы, кажется, просите (анализируйте robots.txt с сайта и возвращайте только то, что разрешено этим файлом - предположительно для управления роботом-роботом, который не уважает robots.txt ?).Написание прокси, который обрабатывает это, потребует сопоставления / проверки user-agent-to-robots.txt для каждого запроса, который получает прокси, что, безусловно, возможно (вы можете сделать это в Squid, но вам нужно будет объединить скрипт для преобразования robots.txt в правила конфигурации squid и периодического обновления этих данных), но это, несомненно, снизит эффективность прокси.
Исправление сканера - лучшее решение (оно также позволяет избежать отправки "устаревших" данных поисковому роботу через прокси. Обратите внимание, что хороший бот-робот будет проверять время обновления в заголовках HTTP и получать страницы только в том случае, если они изменилось ...)

3
ответ дан 3 December 2019 в 19:16

Теги

Похожие вопросы