Поисковый робот Google загружает двоичные файлы?

Логины SQL Server отличны от логинов Windows. Вы уверены имя пользователя и пароль, Вы вводите соответствия один, Вы настроили в SQL Server?

Самый легкий способ создать логины при помощи Studio управления SQL Server. Можно следовать этому руководству от Microsoft для создания входа в систему, который использует или аутентификацию Windows или аутентификацию SQL Server. Если Ваши веб-серверы и серверы баз данных не соединены с доменом, то самый легкий путь состоит в том, чтобы использовать аутентификацию SQL Server.

4
задан 28 April 2012 в 00:00
3 ответа

Кажется, ответ на ваш первый вопрос: «может быть»:

Какие типы файлов может индексировать Google?

Google может индексировать содержимое большинства типов страниц и файлов. См. Наиболее распространенные типы файлов.

Но ссылки на общие типы файлов - это все текстовые.

Даже если вы выполните поиск двоичных файлов, таких как установщики Windows (.msi) , вы можете получить ссылку на страницу, содержащую файл, или прямую ссылку на файл, но Google почти наверняка решает, как его проиндексировать, основываясь на том, что находится вокруг ссылки на странице, а не путем загрузки и расшифровки содержимое двоичных файлов.

Что касается вашего основного вопроса , Рекомендуемый Google метод для проверки того, попал ли бот на ваш сайт или нет, заключается в использовании обратного поиска DNS:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

Имейте в виду, что миссия Google «состоит в том, чтобы систематизировать мировую информацию и сделать ее общедоступной и полезной». Это означает, что они постоянно вводят новшества, пытаясь индексировать нетекстовые данные таким образом, чтобы сделать их доступными для поиска. Расширить идею ceejayoz о том, что то, что они не сделали этого вчера, не означает, что они не сделают этого завтра: Google сделает все возможное, чтобы сделать это завтра!

7
ответ дан 3 December 2019 в 02:37

Вместо того, чтобы делать предположения, почему бы не проверить access_logs, чтобы узнать, что такое User Agent или запрашивающий хост? Таким образом, вы даже можете определить, какую полосу пропускания использует Google (или другие сканеры), добавив трафик данных для каждого запроса.

2
ответ дан 3 December 2019 в 02:37

Я недавно заметил необычный всплеск в трафике моего веб-сервера. Глядя на веб-статистику, я увидел, что небольшой набор больших бинарных файлов на моем сайте был скачан в быстрой последовательности группой, казалось бы, связанных IP-адресов. Я использовал urlquery.net, чтобы выяснить, кому принадлежат эти IP-адреса, и нашел, что все они принадлежат Google.

Я пришел сюда в поисках ответов, но, прочитав то, что сказали другие, я понял, что Google, возможно, сканирует двоичные файлы на наличие вредоносного ПО, или, по крайней мере, отправляет их в службы обнаружения вредоносного ПО для сканирования. Мы знаем, что Google обнаруживает и помечает вредоносные программы на веб-сайтах, поэтому разумно предположить, что это включает в себя загрузку файлов, о которых идет речь.

Google's 'If your site is infected' page says this: "Используйте Fetch в качестве инструмента Google в Webmaster Tools для обнаружения вредоносного ПО"

Обратите также внимание, что файлы, о которых идет речь, не появляются в результатах поиска Google, предположительно потому, что я использую robots.txt, чтобы запретить индексирование этих файлов. Предположим, что я прав, когда Google находит бинарный файл, связанный с публичной веб-страницей, он просканирует файл на наличие вредоносных программ, независимо от использования robots.txt, но проиндексирует файл только в том случае, если это разрешено robots.txt. Я думаю, что это именно то, что они должны делать, при условии, что сканирование происходит нечасто.

Обновление: похоже, что Google делает это каждые десять дней или около того. Это повлияет на мою пропускную способность.

1
ответ дан 3 December 2019 в 02:37

Теги

Похожие вопросы