HTTP-прокси для работы с другой кодировкой [закрыто]

Я работаю над поисковым роботом, поэтому я разбираю HTML-страницы. Моя проблема в том, что иногда кодировка страницы не UTF8 (ISO, экзотическая Windows [0-9] и т. Д.), И мой анализатор дал сбой.

Я пробовал много решений на PHP / Java / NodeJS для преобразования содержимого, но всегда есть проблема.

Существует ли прокси-модуль (nginx, squid, varnish ....) для автоматического преобразования кодировки содержимого в UTF8?

0
задан 7 January 2014 в 11:30
1 ответ

Кодировка должна быть объявлена ​​в заголовке - если это не utf-8, преобразовать ее - iconv доступен в большинстве разновидностей Linux и Unix. Если вы создаете поисковый робот, его будет проще интегрировать в код, чем в прокси.

1
ответ дан 4 December 2019 в 17:51

Теги

Похожие вопросы