wget? См. http://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options
Это получит дерево каталогов, что можно затем архивировать использование любой из обычных застежек-молний командной строки. Вы только что поместили все это в пакетные файлы и выполнили его из Планировщика задач.
МЛАДШИЙ]
Teseract, кажется, является лучшим. http://code.google.com/p/tesseract-ocr/
Обзоры, кажется, говорят, что это - единственное, которое бьет перепечатывающие вещи. http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222
Разве люди не гуглят mone? 5 минут, читая то, что я потянул с "ocr Linux" как мои критерии поиска.
У меня был проект , который потребовал OCR. Можно использовать GOCR для части OCR. Для преобразования в pbm формат изображения можно использовать djpeg. Если Вам нужно в быть интегрированными с сетью, можно назвать преобразование/ocr из PHP, также отсюда до реализации сохранение DB.
Я настроил очередь сообщений и отправляю задачи ей для обработки. Все, что необходимо было бы действительно сделать, загрузить файл как изображение к общей платформе хранения, возможно, GlusterFS или подобный, затем продвинуть имя файла и путь к очереди сообщений, для обработки. Все, что необходимо было бы сделать затем, настраивается процесс, чтобы слушать очередь и выполнить gocr на нем, продвигая выходные данные в базу данных..
Легкий.. В теории.;)
Вы посмотрели на WatchOCR? Это - свободный и сервер OCR с открытым исходным кодом, который преобразовывает изображение только PDFs в текст доступный для поиска PDFs от наблюдаемой папки или сетевого ресурса.