#1 Le 25/02/2008, à 10:32
- Sysko le prospecteur
script pour récupérer page web nécessitant d'être loggué
Bien le bonjour
voila mon problème ,
étant en déplacement assez souvent ( œphemisme ) , je n'ai pas toujours un accès à internet et cependant j'aimerais consulter durant mes voyages certains sites webs , pour la plupart des sites un simples script avec des wgets suffisent mais sur un des sites , pour avoir accès à certaines pages il faut être loggué
et un wget de la page me donne l'erreur
--10:27:06-- http://chinesepod.com/lessons/time-for-class/exercises
=> `exercises'
Résolution de chinesepod.com... 64.78.165.98
Connexion vers chinesepod.com|64.78.165.98|:80... connecté.
requête HTTP transmise, en attente de la réponse... 302 Found
Emplacement: /signin?continue=http%3A%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises&pr=false [suivant]
--10:27:07-- http://chinesepod.com/signin?continue=http%3A%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises&pr=false
=> `signin?continue=http:%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises&pr=false'
Réutilisation de la connexion existante vers chinesepod.com:80.
requête HTTP transmise, en attente de la réponse... 302 Found
Emplacement: https://secure.praxislanguage.com/accounts/login?service=chinesepod&logout=&pr=false&force=&continue=http%3A%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises [suivant]
--10:27:08-- https://secure.praxislanguage.com/accounts/login?service=chinesepod&logout=&pr=false&force=&continue=http%3A%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises
=> `login?service=chinesepod&logout=&pr=false&force=&continue=http:%2F%2Fchinesepod.com%2Flessons%2Ftime-for-class%2Fexercises.1'
Résolution de secure.praxislanguage.com... 64.78.165.105
Connexion vers secure.praxislanguage.com|64.78.165.105|:443... connecté.
ERREUR: erreur de vérification du certificat pour secure.praxislanguage.com: unable to get local issuer certificate
Pour établir une connexion à secure.praxislanguage.com non sécuritaire, utiliser `--no-check-certificate'.
Incapable d'établir une connexion SSL.
cependant si je fais un simple et bête enregistrez sous depuis firefox , je peux obtenir la page , donc j'imagine que cela vient du fait que firefox à dans un de ses dossiers un cookie contenant le dit certificat qu'il semblent manquer à ma commande wget
donc j'aimerais savoir
est-ce légal ? ( sinon bon ben tapins )
si c'est légal comment dire à wget d'aller chercher ce certificat depuis firefox ( déjà faut que je sache ou il se trouve ^^ ) ? à moins que vous ayez une autre idée , mes connaissances des technos web et du fonctionnement de wget sont sommes toutes assez limité pour ce qui est de la gestion des certificats
voila en vous remerciant de votre aide
cordialement
Dernière modification par Sysko le prospecteur (Le 25/02/2008, à 10:32)
Projet tatoeba : projet collaboratif visant à créer un corpus de phrases d'exemples traduites dans le plus de langues possibles
Hors ligne
#2 Le 25/02/2008, à 12:25
- petrus_lt
Re : script pour récupérer page web nécessitant d'être loggué
Je n'ai jamais essayé, mais je sais que ce que tu veux faire est possible avec "curl"...
En espérant que ca aide !
s/windows/linux/
Hors ligne
#3 Le 25/02/2008, à 12:55
- Sysko le prospecteur
Re : script pour récupérer page web nécessitant d'être loggué
ok je vais regarder de ce coté, d'ailleurs sa me plait un peu plus car si tel est le cas je pourrais coder le truc en c ce qui sera beaucoup plus aisé pour moi
je regarde sa et je vous tiens au courant, mais si vous avez d'autre précisions je suis toujours preneur ^^
Projet tatoeba : projet collaboratif visant à créer un corpus de phrases d'exemples traduites dans le plus de langues possibles
Hors ligne
#4 Le 25/02/2008, à 13:53
- Alain.g
Re : script pour récupérer page web nécessitant d'être loggué
Bonjour
Wget dispose de l'option --load-cookies, il suffit d'indiquer derrière le chemin du fichier cookies.txt
par exemple (en adaptant le chemin)
wget --load-cookies ~/.mozilla/firefox/profil/cookies.txt
N'oublie pas "man wget". Une recherche "/cookies" et tu aurais eu la solution en 5 secondes
Xubuntu Karmic !
Hors ligne
#5 Le 25/02/2008, à 15:02
- Sysko le prospecteur
Re : script pour récupérer page web nécessitant d'être loggué
exact , honte sur moi je n'avais pas lu avec suffisament de rigueur le man de wget et j'étais plus partie sur une histoire de certificat au début que sur les cookies en eux même
sinon je doit rajouter
--no-check-certificate à ma commande pour qu'elle marche et la encore la commande wget doit s'y reprend à plusieurs fois avant d emarcher ( bon à la fin elle marche c'est le principal )
donc la commande que je fais est un petit
wget --no-check-certificate --load-cookies /path/vers/cookie.txt http://monurl.com/toto
Projet tatoeba : projet collaboratif visant à créer un corpus de phrases d'exemples traduites dans le plus de langues possibles
Hors ligne
#6 Le 27/02/2008, à 17:03
- Sysko le prospecteur
Re : script pour récupérer page web nécessitant d'être loggué
re bonjour
alors à présent tout fonctionne presque correctement
sauf que
certaine balise font refererence à
/exemple/truc
sur le site original cela m'affiche la page /exemple/truc.html
or cependant truc est aussi dossier
ce qui fais que lorsque je clique sur ce lien sur ma copie du site en local ( http://127.0.0.1/exemple , cela m'affiche un pseudo explorateur de fichier
ou je vois
truc ( en tant que dossier)
truc.html
et je doit cliquer sur truc.html pour que la page s'affiche correctement
j'aimerais donc savoir comment faire pour qu'il maffiche directement truc.html lorsque je clique sur le lien , et cela autrement qu'en éditant le html des pages ( car bon avec 8 563 fichier html qui doivent contenir chacun une bonne cinquantaine de lien , même avec un script sa risque d'être embêtant surtout que la structure des pages sont très différentes donc je suis pas sur qu'un script de remplacement fassent un boulot correct )
voili voila
en vous remerciant d'avance
Projet tatoeba : projet collaboratif visant à créer un corpus de phrases d'exemples traduites dans le plus de langues possibles
Hors ligne