#1 Le 07/04/2021, à 13:36
- AdrienC
[Résolu] outil convert ImageMagick qui s'arrête au bout de x pages
Bonjour,
je tente de convertir un pdf de 22 pages en 22 images .jpg, afin de passer un ocr (si jamais vous avez un outil pour faire travailler l'ocr directement dans le pdf...).
quand je fais
convert -density 400 fichier.pdf -resize 25% -quality 92 fichier%d.jpg
il ne me crée que 10 images (pas de message d'erreur)
quand je fais
convert -density 450 fichier.pdf -resize 25% -quality 90 fichier%d.jpg
il ne m'en fait que 7.
Je ne comprends pas pourquoi il ne me fait pas les 22 ! Aussi en conversion vers png les fichiers sont inexploitables (aucun logiciel ne veut les lire).
J'ai finalement réussi à lui faire faire les 22 fichiers avec paramètre -density 250, mais la qualité devient limite, j'ai peur que pour l'OCR ça soit juste. Enfin si quelqu'un a une idée pour faire ce que je veux faire sans enregistrer à la main 22 fichiers...
Dernière modification par AdrienC (Le 11/04/2021, à 09:35)
Hors ligne
#2 Le 07/04/2021, à 13:54
- abelthorne
Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages
Il y a un problème assez courant avec ImageMagick qui est qu'il ne peut pas traiter un "grand" nombre de fichiers à cause d'une limitation de la quantité de mémoire qu'il s'alloue. Cela dit, c'est curieux que tu n'aies pas de message d'erreur.
Les limitations peuvent être outrepassées en modifiant son fichier de config policy.xml (son emplacement peut varier mais sur Ubuntu il devrait être dans /etc/ImageMagick-6). Voir par exemple là pour plus de détails.
Autre solution possible, passer par mutool (qui fait partie de MuPDF ; sur Ubuntu, il est dans le paquet mupdf-tools) et qui ne devrait pas avoir cette limitation.
Et si ton PDF contient déjà des images que tu veux simplement extraire, il y a pdfimages (du paquet poppler-utils).
Hors ligne
#3 Le 07/04/2021, à 13:57
- erresse
Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages
Bonjour,
Passe donc plutôt par un petit logiciel dédié à cet usage : PDFsplit ou PDFextract par exemple.
Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois résolu, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.
Hors ligne
#4 Le 11/04/2021, à 09:34
- AdrienC
Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages
Bonjour,
merci, j'ai finalement réussi à passer l'OCR directement sur l'ensemble du pdf grâce à Paperwork.
Hors ligne