Kratzer

Ein Framework zum Kriegen und Abkratzen von mehrseitigen Websites
Jetzt downloaden

Kratzer Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Freeware
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Peter Jones
  • Website des Verlags:
  • http://rubyforge.org/users/pjones/
  • Betriebssysteme:
  • Mac OS X
  • Dateigröße:
  • 38 KB

Kratzer Stichworte


Kratzer Beschreibung

Ein Rahmen für das Kriegen und Abkratzen von mehrseitigen Websites Im Gegensatz zu anderen Kratzrahmens ist das Framework Scrapes, um mit "schmutzigen" Websites arbeiten können. Das heißt, Websites, die nicht so ausgelegt sind, dass ihre Daten programmgesteuert extrahiert wurden X Consortium-Lizenz. Hier sind einige wichtige Merkmale von "Kratzer": · Regelbasierte Auswahl und Extraktion von Daten, die CSS-Selektoren oder Pseudo-XPath-Ausdrücke verwenden können · Caching-System, sodass Sie während der Entwicklung nicht ständig Seiten von einem Webserver herunterladen müssen, während Sie mit Ihren Selektoren und Extraktoren experimentieren · Validierungssystem, mit dem Sie Web-Site-Änderungen erkennen können, die Ihre Extraktionsregeln ansonsten ungültig machen würden · Unterstützung beim Initiieren einer Sitzung mit dem Webserver und Passions-Session-Cookies zurück zum Webserver · Wenn alles andere fehlschlägt, können Sie eine Webseite über den XSLTPROC XSLT-Prozessor ausführen, um ein XML-Dokument zu erstellen, das dann über Ihren regelbasierten Parser ausgeführt werden kann · Nützlicher Satz von Nachbearbeitungsmethoden wie Normalize_name Was ist neu in dieser Version: · Erste öffentliche Veröffentlichung.


Kratzer Zugehörige Software

Appia

Open Source-geschichtete Kommunikations-Toolkit in Java implementiert und bietet erweiterte Konfigurations- und Programmiermöglichkeiten ...

190 1.8 MB

Herunterladen

Vorrang

Entwicklungswerkzeug für die Erstellung und Analyse von Prioritätsnetzwerken ...

153 17 KB

Herunterladen