Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

L'Africain · Le 13/05/2019, à 11:13

Bonjour,
Alors voilà la situation tout de même un peu complexe. Je dois récupérer du texte dans un fichier au choix PDF ou PageMaker.
Les problèmes sont les suivants:
Le premier gros problème c'est que le texte est en birman et non Unicode, il utilise une police particulière pour être lu.
Ensuite le pdf est en colonnes, donc quand je le converti en txt avec pdftotext le résultat fait qu'il est mélangé...
Je peux extraire relativement bien le texte du fichier PageMaker que j'ai installé avec Wine mais là c'est un autre problème, chaque ligne est précédé par un chiffre, or ce chiffre se trouve dans une colonne parallèle à ce texte!!! Donc je perds la référence du texte quand je fait un copier collé. Reste l'exportation en html qui est peut être possible et qui conserver plus ou moins la mise en page en colonne.
Vous pouvez trouver le pdf, le pmd et les fonts sur framadrop:
- Burmese_NT_Proverbs.pdf : https://framadrop.org/r/WYr7JpID2z#ZKKf … lyVoH50oo=
(dernier délai pour télécharger : mercredi 12 juin 2019 11:04)
- NT_Proverb.pmd : https://framadrop.org/r/98zcdsVEF5#VuR7 … WPFOV21U8=
(dernier délai pour télécharger : mercredi 12 juin 2019 11:07)
- Fonts.tar.xz : https://framadrop.org/r/j0sHFSzhuJ#UAfz … 0dLlgzD7E=
(dernier délai pour télécharger : vendredi 12 juillet 2019 11:08)

Une fois le texte récupérer restera une seconde étape la conversion en unicode, et ainsi ne plus être dépendant de la police particulière et aussi pouvoir utiliser un logiciel libre.

Merci d'avance.

noje · Le 13/05/2019, à 16:03

Tu veux en faire quoi une fois récupérer c'est important de savoir la finalité.
Si les fonts sont installés où il faut /usr/share/fonts/truetype/, tu peux ouvrir normalement toutes les pages avec Inkscape, puis copier coller dans LibreOffice ou tout autre logiciel qui gèrent les police TTF ou OTF...

L'Africain · Le 13/05/2019, à 16:09

Merci noje, pour ta réponse, en fait la finalité c'est de pouvoir réutiliser le texte pour se libérer à la fois de Pagemaker et du problème de la police en question en passant tout le texte, une fois récupérer sous format soit txt ou autre format ouvert , en unicode avec un script adéquat.
Je vais voir avec inskcape.
Edit: Ça s'ouvre en effet très bien avec Inkscape mais une page à la fois et surtout je ne sais pas comment récupérer le texte du pdf.

Dernière modification par L'Africain (Le 13/05/2019, à 16:12)

noje · Le 14/05/2019, à 08:51

Ben en fait c'est page par page à la main pour plus de facilité de sélection fait, (ctrl+a) tout sélectionner ou avec la souris, puis (ctrl+shift+g) pour dégrouper les éléments (parfois plusieurs fois).
Sur chaque page puis copier et coller le texte dans libre office.

Toutefois tu devrais tenter de faire une conversion du texte brute et de la copier dans libre office, puis après de sélectionner la police correspondante.

L'Africain · Le 14/05/2019, à 09:11

Toutefois tu devrais tenter de faire une conversion du texte brute

J'ai déjà fait ça. mais j'ai le problème des colonnes.

page par page à la main

C'est un boulot de dingue! EN plus le copier coller ne fonctionne pas correctement il ne respecte pas les colonnes
Ou au moins s'il existe un moyen de couper les pdf au milieu en masse, ça pourrait alors fonctionné pour une conversion brute.

noje · Le 14/05/2019, à 20:07

Ben ouais mais la mise en page c'est un boulot de dingue, sinon comme tu as la police d'installer, tu peux faire du copier-coller directement depuis le PDF vers LibreOffice Writer ou Abiword .
Et si le texte ne te paraît point bon, ben sélectionne le et change la police, pour celle en Birman.
Allez courage.

L'Africain · Le 14/05/2019, à 22:10

Ben ouais mais la mise en page c'est un boulot de dingue, sinon comme tu as la police d'installer, tu peux faire du copier-coller directement depuis le PDF vers LibreOffice Writer ou Abiword .
Et si le texte ne te paraît point bon, ben sélectionne le et change la police, pour celle en Birman.

Ce n'est pas possible car ce n'est pas une police unicode, mais ça je veins de le résoudre. grâce à un script en ligne. Sauf que j'ai pas les numéros correspondant au ligne, là je suis parti pour le faire manuellement, il y a plus de 500 pages...

LeoMajor · Le 15/05/2019, à 19:49

bonjour,

sudo apt install  fonts-sil-padauk

padauk

LANG=my_MM.utf8 date +%A::%B; date +%A::%B
ဗုဒ္ဓဟူး::မေ
mercredi::mai

LANG=my_MM.utf8  fc-match
Padauk-book.ttf: "áááá±á¬ááºá
á¬á¡á¯ááº" "Regular"

sur quel site internet, as-tu récupéré les sources (pdf, ..)? ou comment as-tu déduit Burmese_NT_Proverbs.pdf ?

L'Africain · Le 15/05/2019, à 20:42

Bonjour LeoMajor,
Padauk est déjà installé, le problème n'est pas pour lire l'utf-8 ni pour convertir en utf8, c'est déjà fait.
Le texte de base n'est pas en unicode mais c'est donc réglé. Mon problème c'est plutôt pour extraire le texte du pdf ou du pmd. J'arrive à récupérer le gros du texte mais pas le numéro qui correspond à chaque ligne... C'est surtout ça que je cherche à faire.
Je n'ai pas déduit qu'il s'agit de Birman, mais je travaille avec les propriétaires de l'œuvre. Il voudrait réutiliser le texte avec une future édition mais aussi ajouter des parties.

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 13/05/2019, à 11:13

Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#2 Le 13/05/2019, à 16:03

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#3 Le 13/05/2019, à 16:09

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#4 Le 14/05/2019, à 08:51

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#5 Le 14/05/2019, à 09:11

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#6 Le 14/05/2019, à 20:07

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#7 Le 14/05/2019, à 22:10

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#8 Le 15/05/2019, à 19:49

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

#9 Le 15/05/2019, à 20:42

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Pied de page des forums