Pages : 1
#1 Le 23/02/2015, à 10:48
- psic
crawler/spider web basé sur des mots-clés
Bonjour,
Je cherche un ensemble de sites web qui traitent d'un ensemble de mot clés, pour être plus clair, je cherche tout les sites web qui causent ou citent un certain nombre de communes en particuliers (et quelques autres mots clés).
Je pourrais faire toute les recherches à la main avec google ou autres, et faire ça à la main, mais j'aimerais bien automatiser tout ça!
Je ne sais pas du tout comment faire, je connais juste un peu Nutch, mais je ne sais pas s'il y aurais quelques chose de plus simple. Je veux juste connaître les urls des sites web, pas le contenu.
si vous avez des pistes...
Merci!
Hors ligne
#2 Le 23/02/2015, à 13:47
- voxdemonix
Re : crawler/spider web basé sur des mots-clés
C'est tout con, au lieu de faire un bot qui scan le web, tu fais un bot qui interroge les moteurs de recherches. (c'est se que font StartPage et DuckDuckGo)
exemple:
<?php
$homepage = file_get_contents('https://www.google.com/search?q=Infernalis+Creatorem');
if (preg_match('/^(http|https|ftp)://([A-Z0-9][A-Z0-9_-]*(?:.[A-Z0-9][A-Z0-9_-]*)+):?(d+)?/?/i', $homepage)) {
echo "URL Detected !.";
}
?>
PS: évite de balancer 2000 requêtes par seconde aux moteurs de recherche si non ils risquent de te bannir.
Dernière modification par voxdemonix (Le 23/02/2015, à 13:57)
Hors ligne
Pages : 1