Как я могу заставить wget загрузить только страницы не изображения CSS и т.д.?

Безусловно самый легкий способ преобразовать.URLs в закладки с помощью Windows PC, который имеет Firefox на нем (и видящий, поскольку у Вас есть.URL файлы вообще, я предполагаю, что у Вас должен быть некоторый доступ к полю Windows).

Поместите все.URL файлы в папку Favourites на поле Windows, откройте Firefox, goto File меню-> Import... и импортируйте фаворитов в Firefox. Можно затем открыть менеджер закладок Firefox's от Bookmarks меню-> Organise Bookmarks и оттуда что-либо Вы экспортируете из Import and Backup меню должно быть полностью читаемо и разрешено к ввозу Firefox Mac.

10
задан 1 February 2012 в 13:10
3 ответа

Вы явно указали wget, чтобы он принимал только файлы с суффиксом .html .

Предполагая, что страницы php имеют .php ], вы можете сделать это:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Обратите внимание, что при этом будет загружен отрисованный html, а не исходный код php. Если страница достаточно динамична, вы можете не получить ожидаемый результат.

Однако я бы предположил, что другой инструмент, такой как httrack , может работать лучше - это зависит от того, что именно вы нужно сделать.

6
ответ дан 2 December 2019 в 22:09

-A принимает список, поэтому -A.html, .php должны соответствуют всем требованиям. Вам также следует заглянуть в -R (он также принимает список отклоненных).

3
ответ дан 2 December 2019 в 22:09

Да, есть, и это довольно просто. Взгляните на этот SO-ответ: https://superuser.com/questions/709702/how-to-crawl-using-wget-to-download-only-html-files-ignore-images-css-js

tl / dr; используйте - follow-tags = a , который будет следовать только за тегами a .

3
ответ дан 2 December 2019 в 22:09

Теги

Похожие вопросы