Я работаю над поисковым роботом, поэтому я разбираю HTML-страницы. Моя проблема в том, что иногда кодировка страницы не UTF8 (ISO, экзотическая Windows [0-9] и т. Д.), И мой анализатор дал сбой.
Я пробовал много решений на PHP / Java / NodeJS для преобразования содержимого, но всегда есть проблема.
Существует ли прокси-модуль (nginx, squid, varnish ....) для автоматического преобразования кодировки содержимого в UTF8?