Я знаю, как использовать imagemagick's convert
для визуализации PDF-файла и создания новых изображений из страницу PDF, включая растровые и векторные изображения, отображаемые с желаемым разрешением.
Но проблема с этим подходом заключается в том, что растровые изображения повторно дискретизируются для нового разрешения. Что я хотел бы иметь необходимо извлечь растровые изображения точно в том виде, в каком они хранятся в PDF.
Я хочу, чтобы это улучшило контрастность отсканированных PDF-файлов, где PDF-файлы являются не чем иным, как архивом для растровых изображений. Например, http: //www.datamath.net/Manuals/TI-66_Manual_US.pdf
Я бы хотел, чтобы самым первым шагом было извлечение исходного файла по возможности растровые изображения из PDF.
Примечание: я ограничиваю это imagemagick, чтобы решение было переносимым. Но если вы знаете, что то же самое можно сделать с помощью таких же распространенных инструментов unix, как imagemagick, поделитесь, пожалуйста!
(не стесняйтесь добавлять ответы, если есть способ использовать imagemagick)
Найдено [0] решение, использующее poppler, которое, я думаю, так же популярно, как imagemagick
pdfimages -all -p TI-66_Manual_US.pdf ./
Вышеупомянутое будет извлеките все форматы изображений из pdf в локальный каталог и добавьте номера страниц. Почему-то добавляется "." перед именем файла, поэтому просто запустите ...
for f in .*jpg; do mv $f a$f; done
... чтобы добавить "a" перед точкой, чтобы с ними было легче работать.
[0] источник: https: // www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/