Открытый исходный код предпочтительнее, но не обязательно.
У меня есть Adobe Acrobat 8, и мне очень нравится функция OCR, которая может по существу поместить невидимый слой текста OCR поверх отсканированного документа. Таким образом, то, что вы видите на экране, является оригинальным отсканированным документом, но результат можно найти.
То, что я ищу, это способ автоматизировать этот процесс. В настоящее время у меня есть несколько скриптов, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-то, что я могу подключить прямо к этому пакетному процессу, чтобы сделать OCR таким же образом, как я могу сделать с Acrobat.
Все предложения приветствуются, спасибо!
Мне реализовали это в документе компании archveiving проект. Просканированный файл является tif файлом (единственная страница). Затем с помощью Клинообразного знака для создания hocr файла единственного tif. Затем с помощью hocr2pdf для вывода файла PDF. Если несколько сканируют страницы, я использую gs для объединения PDFs в единственный документ в формате PDF. Работы действительно хорошо, OCR достаточно хорош для наших потребностей и доступен для поиска в любом средстве просмотра PDF.
Мне нравятся звуки ответа xeon, хотя OCRopus походит на большую забаву.
Вы посмотрели на WatchOCR? Можно загрузить его с http://www.watchocr.com, Это - свободный и сервер OCR с открытым исходным кодом, который преобразовывает изображение только pdfs в текст доступный для поиска pdfs от наблюдаемой папки или сетевого ресурса.