Contenu | Rechercher | Menus

Annonce

La nouvelle clé USB Ubuntu-fr est en prévente
Rendez-vous sur la boutique En Vente Libre

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 13/05/2019, à 11:13

L'Africain

Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Bonjour,
Alors voilà la situation tout de même un peu complexe. Je dois récupérer du texte dans un fichier au choix PDF ou PageMaker.
Les problèmes sont les suivants:
Le premier gros problème c'est que le texte est en birman et non Unicode, il utilise une police particulière pour être lu.
Ensuite le pdf est en colonnes, donc quand je le converti en txt avec pdftotext le résultat fait qu'il est mélangé...
Je peux extraire relativement bien le texte du fichier PageMaker que j'ai installé avec Wine mais là c'est un autre problème, chaque ligne est précédé par un chiffre, or ce chiffre se trouve dans une colonne parallèle à ce texte!!! Donc je perds la référence du texte quand je fait un copier collé. Reste l'exportation en html qui est peut être possible et qui conserver plus ou moins la mise en page en colonne.
Vous pouvez trouver le pdf, le pmd et les fonts sur framadrop:
- Burmese_NT_Proverbs.pdf : https://framadrop.org/r/WYr7JpID2z#ZKKf … lyVoH50oo=
  (dernier délai pour télécharger : mercredi 12 juin 2019 11:04)
- NT_Proverb.pmd : https://framadrop.org/r/98zcdsVEF5#VuR7 … WPFOV21U8=
  (dernier délai pour télécharger : mercredi 12 juin 2019 11:07)
- Fonts.tar.xz : https://framadrop.org/r/j0sHFSzhuJ#UAfz … 0dLlgzD7E=
  (dernier délai pour télécharger : vendredi 12 juillet 2019 11:08)

Une fois le texte récupérer restera une seconde étape la conversion en unicode, et ainsi ne plus être dépendant de la police particulière et aussi pouvoir utiliser un logiciel libre.

Merci d'avance.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#2 Le 13/05/2019, à 16:03

noje

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Tu veux en faire quoi une fois récupérer c'est important de savoir la finalité.
Si les fonts sont installés où il faut /usr/share/fonts/truetype/, tu peux ouvrir normalement toutes les pages avec Inkscape, puis copier coller dans LibreOffice ou tout autre logiciel qui gèrent les police TTF ou OTF...


Sous Ubuntu depuis 2005.
Passionné de système Unix.

Hors ligne

#3 Le 13/05/2019, à 16:09

L'Africain

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Merci noje, pour ta réponse, en fait la finalité c'est de pouvoir réutiliser le texte pour se libérer à la fois de Pagemaker et du problème de la police en question en passant tout le texte, une fois récupérer sous format soit txt ou autre format ouvert , en unicode avec un script adéquat.
Je vais voir avec inskcape.
Edit: Ça s'ouvre en effet très bien avec Inkscape mais une page à la fois et surtout je ne sais pas comment récupérer le texte du pdf.

Dernière modification par L'Africain (Le 13/05/2019, à 16:12)


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#4 Le 14/05/2019, à 08:51

noje

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Ben en fait c'est page par page à la main pour plus de facilité de sélection fait, (ctrl+a) tout sélectionner ou avec la souris, puis (ctrl+shift+g) pour dégrouper les éléments (parfois plusieurs fois).
Sur chaque page puis copier et coller le texte dans libre office.

Toutefois tu devrais tenter de faire une conversion du texte brute et de la copier dans libre office, puis après de sélectionner la police correspondante.


Sous Ubuntu depuis 2005.
Passionné de système Unix.

Hors ligne

#5 Le 14/05/2019, à 09:11

L'Africain

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Toutefois tu devrais tenter de faire une conversion du texte brute

J'ai déjà fait ça. mais j'ai le problème des colonnes.

page par page à la main

C'est un boulot de dingue! EN plus le copier coller ne fonctionne pas correctement il ne respecte pas les colonnes
Ou au moins s'il existe un moyen de couper les pdf au milieu en masse, ça pourrait alors fonctionné pour une  conversion brute.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#6 Le 14/05/2019, à 20:07

noje

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Ben ouais mais la mise en page c'est un boulot de dingue, sinon comme tu as la police d'installer, tu peux faire du copier-coller directement depuis le PDF vers LibreOffice Writer ou Abiword .
Et si le texte ne te paraît point bon, ben sélectionne le et change la police, pour celle en Birman.
Allez courage.


Sous Ubuntu depuis 2005.
Passionné de système Unix.

Hors ligne

#7 Le 14/05/2019, à 22:10

L'Africain

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Ben ouais mais la mise en page c'est un boulot de dingue, sinon comme tu as la police d'installer, tu peux faire du copier-coller directement depuis le PDF vers LibreOffice Writer ou Abiword .
Et si le texte ne te paraît point bon, ben sélectionne le et change la police, pour celle en Birman.

Ce n'est pas possible car ce n'est pas une police unicode, mais ça je veins de le résoudre. grâce à un script en ligne. Sauf que j'ai pas les numéros correspondant au ligne, là je suis parti pour le faire manuellement, il y a plus de 500 pages...


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#8 Le 15/05/2019, à 19:49

LeoMajor

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

bonjour,

sudo apt install  fonts-sil-padauk

padauk

LANG=my_MM.utf8 date +%A::%B; date +%A::%B
ဗုဒ္ဓဟူး::မေ
mercredi::mai

LANG=my_MM.utf8  fc-match
Padauk-book.ttf: "ပိတောက်á€
ာအုပ်" "Regular"

sur quel site internet, as-tu récupéré les sources (pdf, ..)? ou comment as-tu déduit  Burmese_NT_Proverbs.pdf ?

Hors ligne

#9 Le 15/05/2019, à 20:42

L'Africain

Re : Extraire du texte birman dans pdf en colonne ou Pagemaker ou html

Bonjour LeoMajor,
Padauk est déjà installé, le problème n'est pas pour lire l'utf-8 ni pour convertir en utf8, c'est déjà fait.
Le texte de base n'est pas en unicode mais c'est donc réglé. Mon problème c'est plutôt pour extraire le texte du pdf ou du pmd. J'arrive à récupérer le gros du texte mais pas le numéro qui correspond à chaque ligne... C'est surtout ça que je cherche à faire.
Je n'ai pas déduit qu'il s'agit de Birman, mais je travaille avec  les propriétaires de l'œuvre. Il voudrait réutiliser le texte avec une future édition mais aussi ajouter des parties.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne