Какие-либо инструменты для автоматизации OCR отсканированных PDF-файлов способом, аналогичным функции OCR в Acrobat? [закрыто]

Открытый исходный код предпочтительнее, но не обязательно.

У меня есть Adobe Acrobat 8, и мне очень нравится функция OCR, которая может по существу поместить невидимый слой текста OCR поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат можно найти.

То, что я ищу, это способ автоматизировать этот процесс. В настоящее время у меня есть несколько скриптов, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что я могу подключить прямо к этому пакетному процессу, чтобы сделать OCR таким же образом, как я могу сделать с Acrobat.

Все предложения приветствуются, спасибо!

10
задан 30 March 2015 в 14:05
3 ответа

Мне реализовали это в документе компании archveiving проект. Просканированный файл является tif файлом (единственная страница). Затем с помощью Клинообразного знака для создания hocr файла единственного tif. Затем с помощью hocr2pdf для вывода файла PDF. Если несколько сканируют страницы, я использую gs для объединения PDFs в единственный документ в формате PDF. Работы действительно хорошо, OCR достаточно хорош для наших потребностей и доступен для поиска в любом средстве просмотра PDF.

8
ответ дан 2 December 2019 в 22:11
  • 1
    Интересный. Прежде чем я проведу слишком много времени, смотря на него, действительно ли получающийся PDF является изображением от исходного сканирования со встроенным текстовым слоем или является этим текст только? –  Boden 14 August 2009 в 22:45
  • 2
    Это - изображение исходного сканирования со встроенным текстовым слоем. hocr файл является текстовым выводом с разметками HTML. –  xeon 15 August 2009 в 00:17
  • 3
    Отлично. I' m собирающийся давать этому выстрел. Если это похоже на it' ll работают I' ll отмечают Ваш принятый ответ. Спасибо! –  Boden 15 August 2009 в 02:46
  • 4
    Еще раз спасибо. Что-то вроде боли для установки этих двух парней, но it' s работа. Я записал простой сценарий для проверки папки FTP на новые .tif файлы, на которых это выполняет клинообразный знак и hocr2pdf, затем загружает результаты в sharpoint библиотеку документа с помощью завихрения. Таким образом люди могут заархивировать документы прямо от копировального устройства, и архивы являются полностью доступным для поиска текстом. Вопрос: Вы знаете что " разрешение overwrite" опция в hocr2pdf делает? –  Boden 21 August 2009 в 22:29
  • 5
    Я рад, что это удается для Вас. Я не знаю, что-r аргумент делает. –  xeon 21 August 2009 в 23:49

Мне нравятся звуки ответа xeon, хотя OCRopus походит на большую забаву.

0
ответ дан 2 December 2019 в 22:11
  • 1
    Когда я исследовал и тестировал различные решения. Я попробовал это и tesseract-ocr, и им не производили хороший путь к PDF в то время. Я не изучил, если у них есть те функции... Я знаю, что tesseract-ocr имеет его в их временной шкале... –  xeon 14 August 2009 в 21:28

Вы посмотрели на WatchOCR? Можно загрузить его с http://www.watchocr.com, Это - свободный и сервер OCR с открытым исходным кодом, который преобразовывает изображение только pdfs в текст доступный для поиска pdfs от наблюдаемой папки или сетевого ресурса.

1
ответ дан 2 December 2019 в 22:11

Теги

Похожие вопросы