Www :: spyder.

www :: spyder ist ein Perl-Modul, das wie ein Webspinne wirkt.
Jetzt downloaden

Www :: spyder. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Perl Artistic License
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Ashley Pond V.
  • Website des Verlags:
  • http://search.cpan.org/~ashley/WWW-Spyder-0.18/Spyder.pm

Www :: spyder. Stichworte


Www :: spyder. Beschreibung

WWW :: Spyder ist ein Perl-Modul, das wie ein Web-Spider wirkt. WWW :: Spyder ist ein Perl-Modul, das wie ein Web-spider.A Web-Spider wirkt, dass die Renditen Klartext, HTML und andere Informationen pro Seite gekrochen und bestimmen können, welche Seiten zu bekommen und parsen basierend auf gelieferten Bedingungen im Vergleich zu dem Text in Links sowie Seite content.METHODS $ spyder-> new () Erstellen Sie ein neues spyder Objekt. Ohne zumindest den Samen (es) oder go_to_seed () eingeschaltet wird, ist der spyder zu kriechen nicht bereit $ spyder = WWW :: Spyder-> new (Verschiebung || sterben "Gimme a URL n!"). # ... oder ... $ spyder = WWW :: Spyder-> new (% Optionen); Optionen: sleep_base (in Sekunden), exit_on (Hash-Methoden und Einstellungen). Beispiele unten. $ Spyder-> Samen ($ url) Fügt eine URL (oder URLs) an die Spitze der Warteschlangen für crawl'ing. Wenn die spyder mit einem einzigen skalaren Argumente aufgebaut ist, dass der seed_url betrachtet wird. $ Spyder-> Glocke () Dies wird eine Glocke ( a) zu STDERR auf jeder erfolgreich durchforsteten Seite drucken. Es ist zwar lästig erscheinen, aber es ist eine hervorragende Möglichkeit, Ihr spyder zu wissen, benimmt und arbeitet. Wahre Wert stellt sich auf. Im Moment kann es nicht ausgeschaltet werden $ spyder-> spyder_time () Gibt roh Sekunden seit Spyder erstellt wurde, wenn ein boolean Wert gegeben, sonst gibt "D Tag (e) HH :: MM: SS.". $ spyder-> Begriffe () je mehr Begriffe, desto mehr wird der spyder an begreifen wird. Wenn Sie eine gerade Liste von Strings geben, werden sie in sehr offen Regexes gedreht werden. Z. B .: König würde schmollen und kinglet aber nicht überein König. Es ist Groß- und Kleinschreibung jetzt. Wenn Sie genauere Anpassung oder ein anderes Verhalten wollen, übergeben Sie Ihre eigene reguläre Ausdrücke anstelle von Strings. $ spyder-> Bedingungen (qr / bkings b / i, qr / bqueens b / i?). Begriffe () ist nur einmal einstellbar gerade jetzt, dann ist es beschlossene Sache $ spyder-> spyder_data () Eine durch Komma formatiert Nummer Kilobyte bisher abgerufen. Verwenden Sie es nicht ein Argument geben. Es ist ein Satz / get-Routine. $ Spyder-> geschlafen () Gibt die Gesamtzahl der Sekunden die spyder geschlafen hat beim Laufen. Nützlich für die genaue Seite / jeder Tag zählt (spyder Performance) bekommen die zusätzlichen Höflichkeit Schläfchen Diskontierung $ spyder-> UA -.> ... Die LWP :: Useragent. Sie können sie zurückgesetzt, ich glaube, durch Methoden auf dem UA aufrufen. Hier sind die initialisierten Werte, die Sie vielleicht optimieren wollen (siehe LWP :: Useragent für weitere Informationen): $ spyder-> UA-> timeout (30); $ Spyder-> UA-> max_size (250_000); $ Spyder-> UA-> Agent ( Mozilla / 5.0); die Agentennamen ändern können Ihr spyder b / c einige Server Inhalt zurückgeben wird nicht schaden, wenn sie von einem Browser angefordert hat, sollten sie recognize.You wahrscheinlich fügen Sie Ihre eine E-Mail mit von () als auch. $ Spyder-> UA-> aus ('bluefintuna@fish.net '); $ spyder-> cookie_file () Sie leben in $ ENV {HOME} / spyderCookie standardmäßig, aber Sie können Ihre eigene Datei einstellen, wenn Sie es vorziehen, oder wollen verschiedene Cookie-Dateien für verschiedene spyders.Requirements speichern: · Perl


Www :: spyder. Zugehörige Software