Из того, что я услышал, существует достаточное количество мест, которые необходимо изменить для покрытия всех различных способов запустить браузер.
Я предлагаю Вас:
Тем путем Вы знаете о покрытии изменений реестра, которые внес бы сам IE. Повторитесь на различных платформах для покрытия различий там.
Это динамично сгенерировано Сценарием PHP. Для больших сайтов, вероятно, лучше проверить на изменения и только генерировать, если что-то изменилось - или генерируйте его только каждый минуты/часы/дни XY. Это зависит от инфраструктуры.
Необходимая информация является всеми в базе данных, таким образом, это не такая трудная задача.
И вот доказательство: http://svn.wikimedia.org/viewvc/mediawiki/trunk/phase3/maintenance/generateSitemap.php?view=log / http://www.mediawiki.org/wiki/Manual:GenerateSitemap.php
Править: А-ч и это могли быть также интересными для этой темы:
Я сталкивался с задачей создать карту сайта для нашего веб-сайта некоторое время назад. Хотя это не размер Википедии, это - все еще приблизительно сто тысяч страниц, и приблизительно 5% из них изменяются, добавляются или ежедневно удаляются.
Как помещающий все постраничные справочники в единственный файл сделал бы это слишком большим, я должен был разделить их на разделы. Индекс карты сайта указывает на aspx страницу со строкой запроса для одного из 17 различных разделов. В зависимости от строки запроса страница возвращает xml ссылка на несколько тысяч страниц, на основе которых объекты существуют в базе данных.
Так, карта сайта периодически не создается, вместо этого она создала на лету, когда кто-то запрашивает это. Поскольку у нас уже есть система для кэширования поисков базы данных, это, конечно, используется для выборки данных для карты сайта также.
Я не положителен, но я думаю, что они используют расширение Google Sitemap для MediaWiki. Это поддерживается страницей Wikipedia на Картах сайта.
Хотя код поколения карты сайта находится в ведущем устройстве ядра MediaWiki и конечно был бы опцией, выбранной для создания карты сайта, я не вижу доказательства, что Википедии на самом деле включили его. Файл robots.txt не указывает ни на какие карты сайта.
Далее, любой сценарий обслуживания работает на проектах Викимедиа, управляется марионеткой и нет никакого экземпляра generateSitemap.php в марионеточном репозитории. Наконец, нет никакой карты сайта в дампах ни для какой Wiki Викимедиа также, в то время как существуют "краткие обзоры для Yahoo".
В любом случае Википедия выполняет кэши Сквида перед их серверами приложений. Они могут управлять, как часто их карта сайта обновляется путем корректировки времени истечения для страницы.
Кроме того, независимо от того, что Википедия делает для индексации, не хорошая модель для Вашей Wiki, потому что Google имеет специальные контакты/соглашения/обработку Википедии, посмотрите недавний пример.