Expressions régulières

abecidofugy · Le 28/09/2019, à 18:37

Salut,

Je cherche à introduire dans un logiciel une expression régulière pour :
— englober toutes les urls d’un nom de domaine, c’est-à-dire les url commençant par : www.mondomaine.fr/
— n’importe quel chaîne de caractères

Merci de votre aide.

jamesbad000 · Le 28/09/2019, à 18:56

Bonjour,

^www.mondomaine.fr/.*

Edit pour être plus précis il faudrait mettre une séquence d'échappement sur les points (autrement ils pourront être remplacés par n'importe quel caractère

^www\.mondomaine\.fr/.*

Hum et j'ai supposé que les URL étaient en début de ligne. Autrement il faut enlever le ^ au début

Dernière modification par jamesbad000 (Le 28/09/2019, à 19:02)

kamaris · Le 28/09/2019, à 19:01

L'expression régulière

www\.mondomaine\.fr/

matchera toutes les chaines de caractères contenant « www.mondomaine.fr/ » : ça devrait te convenir, étant donné la forme particulière que prennent les urls.
Au sens où une url contenant cette expression devrait nécessairement « commencer » par elle, si on exclut le protocole par lequel elle devrait réellement commencer.

Pour la seconde question, c'est simplement

.*

pour toute chaine, y compris la chaine vide.

Dernière modification par kamaris (Le 28/09/2019, à 19:02)

abecidofugy · Le 28/09/2019, à 19:07

Super, merci à vous. Je vais tester ça de ce pas. Bonne soirée

abecidofugy · Le 28/09/2019, à 20:56

Re,

En fait, je voudrais éliminer les URL externes. Je voudrais donc écarter les URL ayant le motif http ou https.

Ça donnerait quoi pour avoir toutes les urls sans ces motifs ?

Un grand merci.

Dernière modification par abecidofugy (Le 28/09/2019, à 21:03)

jamesbad000 · Le 28/09/2019, à 21:24

SI tu utilise grep le plus simple est d'utiliser la négation (et tant qu'à faire j'ajoute aussi le -i pour rendre insensible au minuscules/majuscule)

grep -E --invert-match -i https?

ou

grep -E --invert-match -i (http|https)

Dernière modification par jamesbad000 (Le 28/09/2019, à 21:33)

pingouinux · Le 28/09/2019, à 21:31

Bonsoir,
Ce serait plus facile si tu donnais un petite exemple avec quelques lignes, contenant à la fois des URL que tu gardes et d'autres que tu élimines.

abecidofugy · Le 29/09/2019, à 01:52

@pingouinux

On garde :
<a href="/monchemineninterne/url">mon ancre</a>

On rejette :
<a href="https://www.facebook.com/entreprise/" rel="nofollow" target="_blank">Image Facebook</a>
<a href="http://www.blabla.com/entreprise/">bli bli</a>

Je ne peux pas utiliser egrep, car dans mon logiciel je n’ai qu’une case avec une valeur de regex comme réponse attendue pour le sélecteur href :

Dernière modification par abecidofugy (Le 29/09/2019, à 02:11)

pingouinux · Le 29/09/2019, à 06:55

Si tu veux récupérer les lignes complètes :

grep 'href="/' fichier

et pour ne récupérer que les URL

grep -Po '(?<=href=")/[^"]+(?=")' fichier

gigiair · Le 29/09/2019, à 09:18

Je ne trouve pas ta question très clairement posée. `/monchemineninterne' est une constante ou non ?

Tu peux essayer de construire ta regexp en utilisant le site Regex Testing
Il y a une liste de regexp proposée pour diverses situations. J'ai utilisé la forme `Match elements of a url' en virant ce qui concerne http ou ftp.

\/?([^:\/\s]+)((\/\w+)*\/)([\w\-\.]+[^#?\s]+)(.*)?(#[\w\-]+)?$

Tu peux vérifier son efficacité en tapant dans le cadre d'édition des exemples de ce que tu veux voir reconnaître.
En plaçant le curseur au dessus des expressions composant la regexp, tu peux savoir la fonction de cette expression,
et s'il y a une erreur (souligné en rouge) sa cause.

Il y a plusieurs syntaxes pour les expressions régulières Le site que je t'indiques propose Perl ou javascript. Il y en a d'autres...
Il existe sans doute d'autres sites pour aider à composer des regexps, et certains éditeurs ont une fonction semblable (Emacs par exemple).

Dernière modification par gigiair (Le 29/09/2019, à 09:45)

abecidofugy · Le 29/09/2019, à 10:35

Oops, je me corrige. Désolé. Je reprends :

@gigiair : non, ce n’est pas une constante. En rerésumant, les liens internes au site n’ont pas une url complète (c’est-à-dire qu’elles ne sont pas de la forme https ou http et commencent toutes par un slash, mais sans ancre nommée en début d’URL) et pour les URL externes, elles ont soit http ou https dans leur syntaxe soit sont de la forme :

<a class="a2a_button_facebook" target="_blank" href="/#facebook" rel="nofollow noopener"><span class="a2a_svg a2a_s__default a2a_s_facebook" style="background-color: rgb(59, 89, 152);"><svg focusable="false" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 32 32"><path fill="#FFF" d="M17.78 27.5V17.008h3.522l.527-4.09h-4.05v-2.61c0-1.182.33-1.99 2.023-1.99h2.166V4.66c-.375-.05-1.66-.16-3.155-.16-3.123 0-5.26 1.905-5.26 5.405v3.016h-3.53v4.09h3.53V27.5h4.223z"></path></svg></span><span class="a2a_label">Facebook</span></a>

/#facebook <------------------------- il y l’ancre nommée avec un # en début d’url, juste après le / : je ne veux pas de ces URL non plus.

Moi je ne veux récupérer que les URL internes à mon site.
Si on se concentre que sur la partie href, voilà ce qu’on peut dire.
Je ne veux récupérer que les URL partielles commençant par un / puis des lettres ou des chiffres (pourquoi pas) mais pas de # juste après le slash.

Bref, une URL interne bonne : <a class="lire" href="/services/imprimerie-en-ligne-alsace/conception-impression-carte-visite">l’intérêt d’avoir des cartes de visite </a>
Et une URL externe qu’on ne veut pas :

<a class="a2a_button_facebook" target="_blank" href="/#facebook" rel="nofollow noopener"><span class="a2a_svg a2a_s__default a2a_s_facebook" style="background-color: rgb(59, 89, 152);"><svg focusable="false" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 32 32"><path fill="#FFF" d="M17.78 27.5V17.008h3.522l.527-4.09h-4.05v-2.61c0-1.182.33-1.99 2.023-1.99h2.166V4.66c-.375-.05-1.66-.16-3.155-.16-3.123 0-5.26 1.905-5.26 5.405v3.016h-3.53v4.09h3.53V27.5h4.223z"></path></svg></span><span class="a2a_label">Facebook</span></a>

Autre URL qu’on ne veut pas :

<a class="lienssociaux" href="https://www.facebook.com/publicitem/" rel="nofollow" target="_blank"><img alt="Logotype Facebook" class="imgbadge" src="/sites/publicitem.pro/files/facebook.png" width="64" height="64"></a>

(excusez-moi je n’ai pas été clair, je ne suis pas très réveillé)

Dernière modification par abecidofugy (Le 29/09/2019, à 11:02)

abecidofugy · Le 29/09/2019, à 11:12

L’expression régulière qu’il me faudrait, en fait, ça serait :
— garder dans tous les liens de la page les URL commençant par un slah suivi tout de suite de lettres et/ou de chiffres

pingouinux · Le 29/09/2019, à 12:19

Avec les nouvelles contraintes en #11, je propose ceci ::

Si tu veux récupérer les lignes complètes :

grep 'href="/[^#]' fichier

et pour ne récupérer que les URL

grep -Po '(?<=href=")/[^#"]*(?=")' fichier

Édité : Petite correction

Dernière modification par pingouinux (Le 29/09/2019, à 12:49)

abecidofugy · Le 29/09/2019, à 12:35

@pingouinux : ça ne marche pas

Je n’utilise pas grep, mais le tableau du logiciel, voir image :

C’est bien ça la syntaxe ?

Avec ta proposition, ça me prend tout de même les liens sociaux, donc avec un href commençant par /#

Je ne veux que les href commençant par /quelquechose ou /quelque/chose1

Dernière modification par abecidofugy (Le 29/09/2019, à 12:39)

pingouinux · Le 29/09/2019, à 12:44

N'utilisant que la ligne de commande, je ne peux pas répondre, désolé…

abecidofugy · Le 29/09/2019, à 12:55

pingouinux a écrit :

Si tu veux récupérer les lignes complètes :
grep 'href="/[^#]' fichier
Édité : Petite correction

Y’a pas une erreur avec les doubles quotes ?

abecidofugy · Le 29/09/2019, à 13:10

Si ça peut aider : je cherche à n’avoir que les liens internes de cette page : https://www.publicitem.pro/ (enfin de tout le domaine)

grep 'href="/[^#]' publicitem.html ça ne garde pas les URL internes, fais le test.

kamaris · Le 29/09/2019, à 13:18

Ben si, essaie avec

grep -o 'href="/[^#]' publicitem.html

Le truc c'est qu'on ne sait pas vraiment ce qu'entend ton logiciel par « expression régulière », et ce qu'il compte comme appartenant ou non au champ href.
Faut-il mentionner les guillemets ?

"/[^#]

Faut-il explicitement mentionner tout ce que l'on souhaite capturer ?

/[^#].*

pingouinux · Le 29/09/2019, à 13:18

Je veux bien tester si tu me fournis un fichier.

abecidofugy · Le 29/09/2019, à 13:33

$ wget www.publicitem.pro
$ grep -o 'href="/[^#]' index.html                           
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="//
href="/s
href="/s
href="/s
href="/"
href="/s
href="/p
href="/a
href="/b
href="/d
href="/c
href="/p
href="/d
href="/s
href="/s
href="/s
href="/s
href="/s
href="/s
href="/u
href="/c

Le href ne doit pas faire partie de la réponse, ni les guillemets. Je voudrais comme réponse tous les résultats d’URL (donc des liens a href="quelque chose"), ayant un href commençant par / et sans ancre nommée.

Donc n’avoir que les résultats :
/quelquechose
/quelquechoseautre
/quelque/chose/autre1

Dernière modification par abecidofugy (Le 29/09/2019, à 13:33)

pingouinux · Le 29/09/2019, à 13:40

abecidofugy #20 a écrit :

wget www.publicitem.pro
grep -o 'href="/[^#]' index.html                  
href="//
............

C'est normal : avec -o, tu ne récupères dans la ligne que ce qui correspond à l'expression donnée.

Ce serait plus facile si tu nous montrais :
- un fichier de départ
- le résultat que tu souhaites

kamaris · Le 29/09/2019, à 13:43

Il faudrait même avoir le logiciel en question pour faire les tests !
Ou au moins sa doc…

Dernière modification par kamaris (Le 29/09/2019, à 13:44)

abecidofugy · Le 29/09/2019, à 13:45

Le fichier de départ ? Ben c’est le code source de la page www.publicitem.pro qu’on obtient avec wget www.publicitem.pro

Le résultat que je souhaite ?
/services
/portfolio
/agence-communication
/services/agence-communication
/services/agence-web
…

Bref, tous les liens internes exclusivement.

jamesbad000 · Le 29/09/2019, à 13:56

La bonne réponse a été données en #13

pingouinux a écrit :

grep -Po '(?<=href=")/[^#"]*(?=")' fichier

Il faut "juste" que le logiciel support les référence avant/arrière...

Dernière modification par jamesbad000 (Le 29/09/2019, à 14:01)

nany · Le 29/09/2019, à 13:58

Bonjour,

wget www.publicitem.pro

grep -o 'href="/[^#]*"' index.html

kamaris a écrit :

Il faudrait même avoir le logiciel en question pour faire les tests !
Ou au moins sa doc…

+1

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 28/09/2019, à 18:37

Expressions régulières

#2 Le 28/09/2019, à 18:56

Re : Expressions régulières

#3 Le 28/09/2019, à 19:01

Re : Expressions régulières

#4 Le 28/09/2019, à 19:07

Re : Expressions régulières

#5 Le 28/09/2019, à 20:56

Re : Expressions régulières

#6 Le 28/09/2019, à 21:24

Re : Expressions régulières

#7 Le 28/09/2019, à 21:31

Re : Expressions régulières

#8 Le 29/09/2019, à 01:52

Re : Expressions régulières

#9 Le 29/09/2019, à 06:55

Re : Expressions régulières

#10 Le 29/09/2019, à 09:18

Re : Expressions régulières

#11 Le 29/09/2019, à 10:35

Re : Expressions régulières

#12 Le 29/09/2019, à 11:12

Re : Expressions régulières

#13 Le 29/09/2019, à 12:19

Re : Expressions régulières

#14 Le 29/09/2019, à 12:35

Re : Expressions régulières

#15 Le 29/09/2019, à 12:44

Re : Expressions régulières

#16 Le 29/09/2019, à 12:55

Re : Expressions régulières

#17 Le 29/09/2019, à 13:10

Re : Expressions régulières

#18 Le 29/09/2019, à 13:18

Re : Expressions régulières

#19 Le 29/09/2019, à 13:18

Re : Expressions régulières

#20 Le 29/09/2019, à 13:33

Re : Expressions régulières

#21 Le 29/09/2019, à 13:40

Re : Expressions régulières

#22 Le 29/09/2019, à 13:43

Re : Expressions régulières

#23 Le 29/09/2019, à 13:45

Re : Expressions régulières

#24 Le 29/09/2019, à 13:56

Re : Expressions régulières

#25 Le 29/09/2019, à 13:58

Re : Expressions régulières

Pied de page des forums