#1 Le 02/02/2007, à 11:16
- Sorbus
[Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Bonjour,
Je cherche s'il est possible de réaliser de l'OCR/ROC (Reconnaissance Optique de Caractères) de qualité sous Ubuntu. J'ai essayé Xsane et Kooka, mais sans résultat probant pour l'instant... Peut-être que je n'ai pas compris comment les utiliser de façon optimale.
J'avais ouvert une discussion sur le sujet il y a deux mois... mais sans beaucoup d'écho :
http://forum.ubuntu-fr.org/viewtopic.php?id=78804
Donc, deux questions simples :
- l'un de vous réalise-t-il de la Reconnaissance Optique de Caractères performante (de qualité) sous Ubuntu (et comment ?)... Ou connaissez vous quelqu'un qui le fait ?
- sinon : est-ce qu'il est actuellement illusoire de vouloir réaliser de l'OCR/ROC correctement sous Ubuntu et sous Linux en général, faute de disposer de logiciels performants ?
Dernière modification par Sorbus (Le 08/02/2007, à 10:38)
Hors ligne
#2 Le 02/02/2007, à 11:22
- AtlanGnozall
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Ce sujet m'interesse également, je suis preneur de toutes solutions satisfaisantes.
Gnu/Linux (Ubuntu 6.10) depuis le 12 janvier
CM: Asus A7N8X-E / Proc: Athlon XP 3200+ / Mem: 1024 Mo / DD Maxtor 120 GO (2xSATA) / CG: MSI NVidia NX7600GS-TD (AGP)
Graveur DVD Asus / Impr: HP PSC 1600 / Modem: Olitec SM2000 / Internet: LiveBox
Réseau local avec 2 windows2000, 1 XP, 2 Ubuntu6.10
Hors ligne
#3 Le 02/02/2007, à 11:25
- bipede
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Il me semble avoir lu quelque part que pour obtenir un résultat correct avec GOCR (ou KOOKA qui en dérive), il fallait scanner en mode binary (noir et blanc) et surtout pas en niveaux de gris (encore moins en couleur).
Desktop: MSI - Intel® Core™ i5-3330 CPU @ 3.00GHz × 4 - RAM 8 go- Kubuntu 21.04 - Système sur SSD 64 Go - /home sur HDD 500 Go.
Laptop: DELL Inspiron-15 3567 - Intel® Core™ i5-7200 CPU @ 2.50GHz × 4 - RAM 8 go - HDD 1 To - Ubuntu 20.10 avec /home séparé.
Mon site: Les contributions du bipède
Hors ligne
#4 Le 02/02/2007, à 22:33
- Sorbus
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Merci roger64,
L'article de "The Glu" et les réponses sur son blog montrent qu'un certain nombre d'utilisateurs d'Ubuntu s'intéressent à la question.
Je me permet de citer ici trois éléments trouvés sur ce blog :
La conclusion de "The Glu" :
Sous linux l'OCR ? Impossible. Inutilisable. Nul. C'est peut être pas gentil, mais rien ne m'a convenu (rien n'est utilisable), ce qui est plutôt rare. Soit je n'ai pas assez cherché (vous avez des noms de bons programmes ?), soit c'est un point à vraiment améliorer...
Il reste cette ouverture... peut-être "je n'ai pas assez cherché"...
Une réponse de racoon97 qui donnerait envie d'en savoir plus
J'ocrise (sic) régulièrement mes documents avec xsane et je n'ai aucun problème avec les documents en français et en 600 DPI, c'est quasi parfait.:$
Si tu passes par ici un jour racoon97, tu pourrais nous dire comment tu procèdes ?
Enfin, la page créée par Pierre S :
J'ai créé cette fichue page. Venez-tous la compléter! http://doc.ubuntu-fr.org/ocr
Excellente idée de réunir les "savoir-faire" sur une page wiki de la Documentation.
Et le sujet que j'avais ouvert en novembre - que je vais remonter - est complémentaire de cette page du wiki, pour permettre un partage d'expérience.
Je propose à tous ceux qui veulent contribuer de se retrouver ici :
http://forum.ubuntu-fr.org/viewtopic.php?id=78804
A partir de là, nous noterons dans la page Wiki de "Pierre S" les trucs et astuces et les constats utiles.
@+
Dernière modification par Sorbus (Le 02/02/2007, à 22:48)
Hors ligne
#5 Le 02/02/2007, à 22:56
- pierluc
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Xsane regroupe plusieurs logiciels de numérisation:
- numérisation de photo
- numérisation de négatifs
- numérisation de texte OCR
- photocoie
Par défaut quand on clique sure l'icône de Xsane sa ouvre Le Sane pour photos mais via la barre de menu on peut ouvrir d'autres logiciels de Sane. Une chose importante est de bien choisir la résolution. Si on prend une movaise résolution il risque de confondre la texture de la feuille avec les polices de caractères ce qui mettre pleins de symbols pas rapport dans le texte.
Pour les tableaux c'est pas supers, mieux vaux les refaires nous même.
Porte-Folio: http://pearluc.wordpress.com
Linux, là où la main de l'homme n'a jamait mit pied.
Capitaine Patnaud, Émission Dans une galaxie près de chez vous
Pour rire: www.tetesaclaques.tv
Hors ligne
#6 Le 04/02/2007, à 18:56
- Schbler
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
pierreluc, comment lancer l'OCR avec Xsane ?
Plus tu pédales moins fort, moins tu avances plus vite
Hors ligne
#7 Le 04/02/2007, à 21:51
- Sorbus
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Voir ici : http://doc.ubuntu-fr.org/ocr
Et je propose à nouveau à tous ceux qui ont des questions, remarques, expériences, d'en faire part ici : http://forum.ubuntu-fr.org/viewtopic.php?id=78804
Dans ce domaine, il est bon de rassembler les expériences, de façon à permettre à tous d'utiliser les logiciels libres disponibles au maximum de leurs capacités
@+
Hors ligne
#8 Le 05/02/2007, à 11:44
- Schbler
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Manque de sommeil ? Besoin de nouvelles lunettes ?
Toujours est-il que je ne vois pas "Type", pour y choisir "Texte". Les mode Xsane que j'ai sont "Visionneuse", "Enregistrer", "Copier", "Faxer" & "e.mail"..... Grrrrr !!
J'ai oublié de cocher quelque chose ?
Faut-il réinstaller Xsane ?
Merci de vos réponses.
Plus tu pédales moins fort, moins tu avances plus vite
Hors ligne
#9 Le 21/02/2007, à 11:35
- bernic
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Salut
Je fais aussi partie de ceux qui souhaitent utiliser un OCR pourquoi pas Xsane... Je n'ai rien contre, je viens d'installer Edgy et ma toute nouvelle imprimante multifonctions Epson stylus DX4250.:)
Tout est bien reconnu, j'imprime, je scanne et j'essaie l'OCR en suivant la doc
http://doc.ubuntu-fr.org/ocr. résolution 300 ou 600 dpi, mode texte, gris ou noir et blanc, enregistrer... Bref, après qques essais, j'ai toujours ce message qui revient :
erreur de processus enfant : erreur d'exécution de commande OCR : gocr : Aucun fichier ou répertoire de ce type : Fermer
Que puis-je faire ? Ai-je oublié une étape ou mal configurer qque chose ?
La théorie, c'est quand on comprend tout et que rien ne marche.
La pratique, c'est quand tout marche mais on ne sait pas pourquoi.
Avec win, ils ont réussi les deux : rien ne marche et personne ne sait pourquoi
Hors ligne
#10 Le 02/03/2007, à 13:34
- ekra
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
Installe gocr ?
PTC !
GPG Key ID = 5518CFC7
Hors ligne
#11 Le 03/03/2007, à 10:15
- bernic
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
J'ai installé gocr... mais il est vrai que la reconnaissance de caractères est vraiment très loin d'être optimale.. chez Msoft, des soft sont bien plus performant, il y a un véritable travail à fourir dans ce domaine... ce n'est qu'une sugestion car ceci dépasse largement mes compétences.:rolleyes:
La théorie, c'est quand on comprend tout et que rien ne marche.
La pratique, c'est quand tout marche mais on ne sait pas pourquoi.
Avec win, ils ont réussi les deux : rien ne marche et personne ne sait pourquoi
Hors ligne
#12 Le 03/03/2007, à 10:45
- jdautz
Re : [Renvoi à autre fil à ce sujet] Reconnaissance Optique Caractères
il n'y a rien de très performant, en tout cas accessible aux particuliers, sous Linux. Rien ne vaut Omnipage
Il ne faut pas confondre Xsane, Kooka etc. avec les logiciels OCR qui sont Ocrad, Gocr et Clara.
C'est vrai que je n'ai pas poussé très loin les tests (aprentissage), mais de toute manière rien ne gère bien l'analyse de la mise en page, il faut découper les zones à la main ce qui n'est pas performant, pour un résultat d'analyse qui lui meme n'est pas performant pour des caractères pas trop nets ou de polices non usuelles.
Dernier point: Je n'ai pas pu faire fonctionner un OCR avec wine.
Hors ligne