#1 Le 25/03/2008, à 23:30
- Juarna
extraire une chaîne d'un fichier html
J'ai 286 fichiers html dans lequel se trouve une balise
<a href="MAILTO:julien.lepers@france3.fr" >
noyée au milieu du charabia HTML.
Pouvez-vous me donner une méthode simple (sans doute à base d'expressions régulières) pour extraire l'adresse mail.
Si en plus vous me donnez un script qui me parcours tous les fichiers HTML du répertoire pour en extraire les adresses mails et les écrire dans un fichier texte, je vous devrais 10 000 remerciements.
Je sais qu'en cherchant je trouverais sans doute mais je n'ai ni le temps ni le courage de le faire. Je ne maitrise pas les expreg.
Merci de votre aide (et du temps que vous me faites gagner).
Hors ligne
#2 Le 25/03/2008, à 23:50
- telliam
Re : extraire une chaîne d'un fichier html
ben si tu as ni le temps ni le courage, c'est que ça doit pas être super primordial
si déjà toi tu n'es pas motivé on va pas l'être a ta place
"- Un intellectuel assis va moins loin qu'un con qui marche."
Maurice Biraud - Un Taxi pour Tobrouk
Michel Audiard
Hors ligne
#3 Le 25/03/2008, à 23:55
- benjou
Re : extraire une chaîne d'un fichier html
grep MAILTO tonficher.html|awk -F: '{print $2}'|awk -F\" '{print $1}'
Dernière modification par benjou (Le 25/03/2008, à 23:55)
écrasons l'infâme
Hors ligne
#4 Le 26/03/2008, à 00:45
- Alain.g
Re : extraire une chaîne d'un fichier html
salut
rgrep -hio "mailto: *[^'\" ]*" * | cut -c8- | sort | uniq > ~/adresses.txt
Il faut se placer en console dans le dossier correspondant.
rgrep est recursif (va fouiller dans les sous-dossiers), enlever le r et laisser juste grep s'il faut s'en tenir au dossier courant.
sort trie par ordre alphabétique et uniq supprime les doublons.
Le résultat sera dans le fichier texte adresses.txt à la base du dossier perso.
Xubuntu Karmic !
Hors ligne
#5 Le 26/03/2008, à 09:01
- Juarna
Re : extraire une chaîne d'un fichier html
Je remercie ceux qui sont assez aimable pour me rendre service et pour les autres ...
Hors ligne
#6 Le 26/03/2008, à 09:04
- Juarna
Re : extraire une chaîne d'un fichier html
Merci merci à Alian G.
Je viens de tester la commande : elle fonctionne au poil.
Promis juré, je me met aux expressions régulières dès que j'ai cinq minutes...
Hors ligne
#7 Le 26/03/2008, à 10:13
- aleph
Re : extraire une chaîne d'un fichier html
>Juarna
>Promis juré, je me met aux expressions régulières dès que j'ai cinq minutes...
http://spinecho.ze.cx/ > regulex