Мне реализовали это в документе компании archveiving проект. Просканированный файл является tif файлом (единственная страница). Затем с помощью Клинообразного знака для создания hocr файла единственного tif. Затем с помощью hocr2pdf для вывода файла PDF. Если несколько сканируют страницы, я использую gs для объединения PDFs в единственный документ в формате PDF. Работы действительно хорошо, OCR достаточно хорош для наших потребностей и доступен для поиска в любом средстве просмотра PDF.
Если сайт был поставлен под угрозу, уничтожьте сервер и запуститесь снова.См. также:
Если Вы используете веб-сервер Apache, смотрите на некоторые из других модулей Журнала, обеспеченных Apache. Они могут помочь Вам разыскать, если Ваш веб-сервер делает что-либо странное. Эти два релевантный звук:
Вход фактических байтов, отправленных и полученных
mod_logio добавляет в двух дополнительных полях LogFormat (%I и %O), которые регистрируют фактическое число байтов, полученных и отправленных в сети.
Судебный вход
mod_log_forensic предусматривает судебное журналирование клиентских запросов. Вход сделан прежде и после обработки запроса, таким образом, судебный журнал содержит две строки журнала для каждого запроса. Судебный регистратор очень строг без настроек. Это может быть неоценимое средство отладки и средства обеспечения безопасности.