Google-бот запускает совершенно нормальный файл robots.txt, а затем несуществующий файл robots.txt [дубликат]

На этот вопрос уже есть ответ здесь:

У меня есть два доменных имени, указывающих на один и тот же виртуальный сервер. Один из них, http://ilarikaila.com , представляет собой рабочий сайт с брошюрами, который я сделал для друга. Я использовал другой, http://teemuleisti.com , чтобы протестировать сайт перед тем, как сделать его общедоступным - в ретроспективе, вероятно, плохая идея.

Долгое время Google-бот был сбит с толку по поводу поиска «ilari kaila», но пока я писал это, вторая проблема, похоже, исчезла ( добавлено при редактировании: ] нет, не имеет).

Путаница первая

Результаты поиска Google по запросу "ilari kaila" включают ilarikaila.com, но только на третьей странице результатов, и вместо фрагмента с сайта результат включает текст "A описание этого результата недоступно из-за файла robots.txt этого сайта - подробнее ... ".

Содержимое файла robots.txt было просто

User-agent: *
Allow: /

, что, конечно, не должно мешать ботам отображать содержимое сайта. Действительно, когда поисковые термины «илари кайла» были введены в бинг.com , сайт появился как первый результат поиска (как и stlil), и был показан правильный фрагмент.

Пару дней назад я полностью удалил robots.txt (точнее, переименовал его в not_robots.txt ), но Google по-прежнему показывает тот же результат, имея в виду роботов. .текст. (Вероятно, это причина того, что сайт появляется только на третьей странице результатов поиска.)

Вторая путаница

Первоначально запросы к teemuleisti.com показывали те же страницы, что и ilarikaila.com, потому что у меня их не было. написал отдельный блок server для первого в моем файле nginx.conf . Я сделал это пару недель назад и написал одну очень простую HTML-страницу для бывшего сайта.

Тем не менее, результаты поиска Google по запросу «ilari kaila» показали ссылки на сайт teemuleisti.com даже примерно через две недели после того, как я сделал предыдущее, и почти час назад. Однако эта проблема, похоже, была решена ( добавлено при редактировании: нет, не было), пока я писал этот вопрос, возможно, потому, что я только что добавил следующее перенаправление на сервер nginx. conf файл:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

для перенаправления результатов поиска, таких как http://teemuleisti.com/press (который показал фрагмент контента, который на самом деле находится по адресу http: // ilarikaila. com / press ) на единственную страницу teemuleisti.com, которая теперь информирует посетителей о проблеме с индексацией Google и содержит ссылку на правильный сайт.

Похоже, это помогло Google-боту решить эту проблему - хотя я не вижу, в чем разница, поскольку на teemuleisti.com уже несколько недель не было подстраниц - но что за путаница с роботами .txt ?

Добавлено при редактировании: Если я введу в Google запрос «ilari kaila composer», вторая страница результатов поиска по-прежнему будет указывать на teemuleisti.com, так что эта проблема еще не решена.

1
задан 15 May 2014 в 12:02
1 ответ

В robots.txt нет таких вещей, как Разрешить , поэтому ваш robots.txt недействителен. Это сбивает ботов с толку, поскольку они ожидают только описаний Agent и Disallow . Вам следует удалить robots.txt или оставить его пустым, если вы хотите, чтобы весь контекст был проиндексирован.

Дополнительная информация: http://www.robotstxt.org/robotstxt.html

0
ответ дан 4 December 2019 в 08:38

Теги

Похожие вопросы