Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 09/03/2020, à 13:59

adgb57

OCR ou autre méthode

Bonjour,
J'ai téléchargé un fichier .pdf de plusieurs pages.
Je dois y apporter des modifications.
Je suis débutant sur Ubuntu et j'aurais besoin de conseils sur la méthode à suivre (pour ne pas réécrire complètement ce document).
Merci.


Ubuntu 20.04 LTS
Noyau 5.4.0.88
Nvidia Geforce 8600 GT

Hors ligne

#2 Le 09/03/2020, à 14:08

Nasman

Re : OCR ou autre méthode

Origine du pdf, document numérisé ou document pdf obtenu à partir d'un document bureautique ?

Dans le premier cas le document est comme une image et tu ne peux sélectionner les textes
Dans le deuxième cas tu peux sélectionner les textes et faire du copier coller.

Regarde si tu peux importer le pdf dans libreoffice et si tu peux travailler dessus. Si c'est le cas tu pourras exporter tes modifs en pdf.


PC fixe sous Bionic 64 bits et portable avec Focal 64 bits

Hors ligne

#3 Le 09/03/2020, à 15:36

jeange

Re : OCR ou autre méthode

A voir aussi avec PDF-Shuffler.


PCLF CLEVO W670SZQ  SSD 480Go  i3  Ram 12Go  Haswell HD4600 Ubuntu 20.04.6 et 22.04.3 LTS 64bit
033 V nospE  03.01.2 pmiG
Merci de donner les retours avec les balises < > et les allers avec les valises, et toujours pas de raton laveur.
%NOINDEX%

Hors ligne

#4 Le 09/03/2020, à 16:19

Doods

Re : OCR ou autre méthode

adgb57 a écrit :

Bonjour,
J'ai téléchargé un fichier .pdf de plusieurs pages.
Je dois y apporter des modifications.
Je suis débutant sur Ubuntu et j'aurais besoin de conseils sur la méthode à suivre (pour ne pas réécrire complètement ce document).
Merci.

Bonjour,
Tout dépend du type de modifications à apporter au fichier pdf et du type de fichier pdf
- s'il s'agit de compléter des champs de formulaires d'un fichier pdf, comme par exemple certains documents officiels type CERFA, le seul programme qui permet de faire ça proprement est malheureusement le lecteur Adobe Reader, qui n'est plus mis à jour depuis longtemps pour Linux. Il y a une dernière "vieille" version pour Linux qui traîne encore par ci par là mais compte tenu de son âge canonique il n'est pas conseillé de l'utiliser.
- s'il s'agit d'un fichier pdf produit par une application de bureautique, il est envisageable de l'ouvrir avec des applications tournant sous Linux, capables d'ouvrir des fichiers pdf et de les modifier : Libreoffice Draw, Inskcape par exemple
- s'il s'agit d'un fichier pdf numérisé à partir d'un scanner (donc comprenant essentiellement des images), une ouverture et une modification avec Gimp est possible.

Ceci étant l'objectif du format pdf n'est pas la modification mais l'affichage correct d'un document quel que soit le système utilisé pour l'ouvrir. Donc s'il y a nécessité de modifier le document le mieux serait de partir du fichier original (avant son exportation en pdf)


Ubuntu 20.04.3 LTS (Gnome avec Wayland), Clevo Slim W130HU, 8Go, SSD 256 Go

Hors ligne

#5 Le 10/03/2020, à 11:23

adgb57

Re : OCR ou autre méthode

Merci pour votre aide.
Je dois mettre en location prochainement une petite maison.
Pour ceci, il y a pas mal de documents officfiels à remplir. Je peux les télécharger en ligne mais la plupart du temps ils sont au format .pdf.
Par exemple ;  Bail
Je voudrais pouvoir récupérer au format OpenOffice ces fichiers afin de pouvoir les compléter.
Sous windows, on peut trouver des utilitaires qui transforme ces .pdf en .docx avec plus ou moins de succès.
Sous Linux je ne sais pas.
Bonne journée.


Ubuntu 20.04 LTS
Noyau 5.4.0.88
Nvidia Geforce 8600 GT

Hors ligne

#6 Le 10/03/2020, à 12:00

jeange

Re : OCR ou autre méthode

Bonjour,
Je viens d'enregistrer ce PDF et ouvert sans problème avec LibreOffice (Draw).


PCLF CLEVO W670SZQ  SSD 480Go  i3  Ram 12Go  Haswell HD4600 Ubuntu 20.04.6 et 22.04.3 LTS 64bit
033 V nospE  03.01.2 pmiG
Merci de donner les retours avec les balises < > et les allers avec les valises, et toujours pas de raton laveur.
%NOINDEX%

Hors ligne

#7 Le 10/03/2020, à 12:20

Doods

Re : OCR ou autre méthode

adgb57 a écrit :

Merci pour votre aide.
Je dois mettre en location prochainement une petite maison.
Pour ceci, il y a pas mal de documents officfiels à remplir. Je peux les télécharger en ligne mais la plupart du temps ils sont au format .pdf.
Par exemple ;  Bail
Je voudrais pouvoir récupérer au format OpenOffice ces fichiers afin de pouvoir les compléter.
Sous windows, on peut trouver des utilitaires qui transforme ces .pdf en .docx avec plus ou moins de succès.
Sous Linux je ne sais pas.
Bonne journée.

J'ai regardé le document en question : Bail et on peut voir d'après ses propriétés qu'au départ il a été créé avec Microsoft Word 2010, donc il doit exister une version au format .doc ou .docx, que Libreoffice ouvre sans problème. Il faudrait voir auprès de l'INC s'il est possible de le récupérer  dans ce format.
Et, soit dit en passant, on peut regretter qu'un établissement public national ne mette pas à disposition ce genre de documents, qui est amené à être modifié, sous un format ouvert et normalisé tel que .odt.

Sinon Il existe une pléthore de sites en ligne qui se proposent de convertir du .pdf en .doc ou .docx mais j'aurai tendance à être méfiant avec ce genre d'offres.


Ubuntu 20.04.3 LTS (Gnome avec Wayland), Clevo Slim W130HU, 8Go, SSD 256 Go

Hors ligne

#8 Le 10/03/2020, à 12:38

Doods

Re : OCR ou autre méthode

jeange a écrit :

Bonjour,
Je viens d'enregistrer ce PDF et ouvert sans problème avec LibreOffice (Draw).

Effectivement Draw l'ouvre bien et on peut y faire des modifs, mais le problème est que chaque ligne est convertie en une zone de texte, ce qui est beaucoup moins pratique à travailler qu'un document au format Writer (.odt). Cela dit pour quelques modifs ponctuelles c'est tout à fait jouable.
Sinon avec la version 6.4 de Libreoffice est apparue une nouvelle fonctionnalité qui permet, après avoir sélectionné plusieurs zones de textes, de les recombiner en une seule, mais dans ce cas là il faut entièrement refaire la mise en forme du texte.

Dernière modification par Doods (Le 10/03/2020, à 12:39)


Ubuntu 20.04.3 LTS (Gnome avec Wayland), Clevo Slim W130HU, 8Go, SSD 256 Go

Hors ligne

#9 Le 10/03/2020, à 12:55

inbox

Re : OCR ou autre méthode

Salut,

En cherchant "bail odt docx" on trouve ce genre de site.

A+


Un problème résolu ? Indiquez le en modifiant le titre du sujet.

En ligne

#10 Le 27/03/2020, à 18:05

physique19140

Re : OCR ou autre méthode

Avec mes élèves j’utilise xournal
https://doc.ubuntu-fr.org/xournal

Hors ligne

#11 Le 11/11/2020, à 10:41

JujuLand

Re : OCR ou autre méthode

Master pdf editor

J'utilise la version 4 qui fonctionne à merveille ...
La version 5 met des watermarks sur les pages sad
La v4 n'est plus dispo ...
J'ai le deb de la v4 si ça interesse quelqu'un ...

A+


Xubuntu 16.04 > Dell DM061 (2007) + Dell Inspiron 531 (2008)
Xubuntu 16.04 > Asus X51L (2009) + MSI GX723 (2009)
Xubuntu 22.04 > HP 15BA048NF (2018)

Hors ligne

#12 Le 11/11/2020, à 11:12

gigiair

Re : OCR ou autre méthode

Ton document (bail) est d'une typographie particulièrement simple. Tu peux récupérer le texte par l'utilitaire pdftotext (qui vient avec poppler-utils)
Et le remettre en forme avec n'importe quel éditeur pour être réutilisé et modifiable. Voici le Document que j'ai extrait avec pdftotext

Dernière modification par gigiair (Le 11/11/2020, à 11:18)


--
JJR.

Hors ligne

#13 Le 26/01/2021, à 11:26

arnoxz

Re : OCR ou autre méthode

En effet, le texte (bail) mentionné peut être sélectionné (une fois ouvert = selctionner tout ou CTRL A + CTRL C)  et copier dans n'importe quel éditeur de texte (on perd cependant la mise en forme)... je n'ai pas essayé Draw...

Pour les images, il y a moyen de lire le texte et d'exporter vers OCR avec gimageReader, chouette outil, parfois un peu long compliqué à mettre en place suivant usage (caractères et police particulière d'autres langue), et pas hyper rapide si bcp de page, mais il fait le taf pas trop mal (suivant la qualité du document / image de départ) !!

[EDIT], je viens d'essayer sur Draw, impeccable, pas besoin d'autres outils, ça fonctionne bien !!

Dernière modification par arnoxz (Le 27/01/2021, à 10:25)

Hors ligne

#14 Le 26/01/2021, à 13:09

adgb57

Re : OCR ou autre méthode

Merci arnoxz


Ubuntu 20.04 LTS
Noyau 5.4.0.88
Nvidia Geforce 8600 GT

Hors ligne