Существует ли способ сказать роботам не смотреть на каталог?

Многие комментаторы отметили, что rsync является быстрым и удобным способом сделать резервные копии, но важно понять, что наиболее распространенной причиной потери данных не является отказ аппаратных средств/медиа, но человеческая ошибка ("ой, я просто удалил неправильный набор файлов").

Наличие возрастающих резервных копий, с восстановлением момента времени важно. Dirvish - www.dirvish.com - является превосходным инструментом, созданным сверху rsync, который допускает эффективное восстановление снимка и резервные копии с rsync.

Другой важный фактор является безопасностью - выполнение резервного копирования обычно подразумевает предоставление удаленной видимости корневого уровня процесса Вашей системы. С rsync + ssh, один отличный способ ограничения потенциального ущерба состоит в том, чтобы использовать ограничение команды SSH. Можно ограничить действия, которые открытый ключ может выполнить, например:

command="sudo /usr/bin/rsync -Rlptd / -",no-pty,no-port-forwarding,no-X11-forwarding,no-agent-forwarding ssh-rsa AAAAB3N....

в authorized_keys файле - удостоверяющийся (вместе с корректным sudo, ограничивающим), что удаленный ключ очень ограничивается в том, что разрешено выполнить.

3
задан 22 July 2009 в 18:40
7 ответов

Как использовать Robots.txt в оптимизации поисковой системы (SEO)

Введите, "Запретите: / имя папки"
для любой папки, содержащей файлы, Вы не хотите, чтобы поисковые системы проверили.

Или, введите, "Запретите:/filename.filetype"
для любой страницы или файла Вы не хотите, чтобы поисковые системы индексировали.

Примечание следующего примера:

* Disallow: /private/
* Disallow: /private/image01.jpg
10
ответ дан 3 December 2019 в 04:48
  • 1
    Хороший ответ. Внешний сайт, на который ссылаются, с большей информацией. Если сводка от сайта. Добавленный пример. –  tvanfosson 22 July 2009 в 18:45

Создайте файл robots.txt в корневом каталоге своего сайта. В том помещенном файле

User-agent: *
Disallow: /images
1
ответ дан 3 December 2019 в 04:48

Это назвало файл robots.txt, и большинство всех роботов будет соблюдать Ваши запросы в Вашем robots.txt.

Вы захотите что-то как следующее:

User-Agent: *
Disallow: /path/to/images/
1
ответ дан 3 December 2019 в 04:48

Вы хотите robots.txt

0
ответ дан 3 December 2019 в 04:48

Да как это:

User-agent: *
Disallow: /MyImageDirectory
0
ответ дан 3 December 2019 в 04:48

В Вашем корневом каталоге можно поместить файл robots.txt, который запрещает роботам индексировать определенные каталоги.

0
ответ дан 3 December 2019 в 04:48

robots.txt только повинуются роботы хорошего поведения. не все они хорошего поведения как те из главных поисковых систем - некоторые записаны некомпетентными шутами, некоторые записаны спаммерами, тралящими для адресов электронной почты и так далее.

так или иначе Вы также хотите выключить Индексы для того каталога... или с .htaccess файлом или в Вашем апачском conf как так:

<Directory /path/to/images/dir>
  Options -Indexes
</Directory >

или путем размещения пустого файла index.html туда.


это будет мешать им видеть, что каталог перечисляет файлов изображений. это не будет мешать им перейти по прямым ссылкам на изображения от других страниц на Вашем сайте.

существует на самом деле очень мало, можно сделать, чтобы действительно препятствовать тому, чтобы роботы получили доступ к общедоступным файлам на веб-сервере, который или не причинит беспокойство пользователям или увеличит нагрузку на сервер, только вручая изображения через сценарий, который только служит зарегистрированным пользователям (например, путем проверки cookie).

0
ответ дан 3 December 2019 в 04:48

Теги

Похожие вопросы