Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 07/04/2021, à 13:36

AdrienC

[Résolu] outil convert ImageMagick qui s'arrête au bout de x pages

Bonjour,

je tente de convertir un pdf de 22 pages en 22 images .jpg, afin de passer un ocr (si jamais vous avez un outil pour faire travailler l'ocr directement dans le pdf...).

quand je fais

convert -density 400 fichier.pdf -resize 25% -quality 92  fichier%d.jpg

il ne me crée que 10 images (pas de message d'erreur)

quand je fais

convert -density 450 fichier.pdf -resize 25% -quality 90  fichier%d.jpg

il ne m'en fait que 7.

Je ne comprends pas pourquoi il ne me fait pas les 22 ! Aussi en conversion vers png les fichiers sont inexploitables (aucun logiciel ne veut les lire).

J'ai finalement réussi à lui faire faire les 22 fichiers avec paramètre -density 250, mais la qualité devient limite, j'ai peur que pour l'OCR ça soit juste. Enfin si quelqu'un a une idée pour faire ce que je veux faire sans enregistrer à la main 22 fichiers...

Dernière modification par AdrienC (Le 11/04/2021, à 09:35)

Hors ligne

#2 Le 07/04/2021, à 13:54

abelthorne

Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages

Il y a un problème assez courant avec ImageMagick qui est qu'il ne peut pas traiter un "grand" nombre de fichiers à cause d'une limitation de la quantité de mémoire qu'il s'alloue. Cela dit, c'est curieux que tu n'aies pas de message d'erreur.
Les limitations peuvent être outrepassées en modifiant son fichier de config policy.xml (son emplacement peut varier mais sur Ubuntu il devrait être dans /etc/ImageMagick-6). Voir par exemple pour plus de détails.

Autre solution possible, passer par mutool (qui fait partie de MuPDF ; sur Ubuntu, il est dans le paquet mupdf-tools) et qui ne devrait pas avoir cette limitation.

Et si ton PDF contient déjà des images que tu veux simplement extraire, il y a pdfimages (du paquet poppler-utils).

Hors ligne

#3 Le 07/04/2021, à 13:57

erresse

Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages

Bonjour,
Passe donc plutôt par un petit logiciel dédié à cet usage : PDFsplit ou PDFextract par exemple.
smile


Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois résolu, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.

Hors ligne

#4 Le 11/04/2021, à 09:34

AdrienC

Re : [Résolu] outil convert ImageMagick qui s'arrête au bout de x pages

Bonjour,
merci, j'ai finalement réussi à passer l'OCR directement sur l'ensemble du pdf grâce à Paperwork.

Hors ligne