Jericho HTML PARSER.

freier und offener HTML-Parser für Ihren Mac
Jetzt downloaden

Jericho HTML PARSER. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • GPL
  • Preis:
  • FREE
  • Name des Herausgebers:
  • M Jericho
  • Website des Verlags:
  • http://jericho.htmlparser.net/doc/index.html
  • Betriebssysteme:
  • Mac OS X
  • Dateigröße:
  • 1.7 MB

Jericho HTML PARSER. Stichworte


Jericho HTML PARSER. Beschreibung

Freier und Open-Source-HTML-Parser für Ihren Mac Jericho HTML Parser ist eine Open-Source-Java-Bibliothek ermöglicht Analyse und Manipulation von Teilen eines HTML-Dokuments, einschließlich serverseitige Tags, während jede ungültige oder unbekannte HTML wörtlich wiedergibt. Jericho HTML Parser bietet auch High-Level-HTML-Formularbearbeitungsfunktionen. Hier sind einige der wichtigsten Features von Jericho HTML Parser: · · Das Vorhandensein von schlecht formatierte HTML-nicht mit dem Parsen des Restes des Dokuments stören, die die Bibliothek ideal für den Einsatz mit real-world macht HTML dass würgen andere Parser. · · PHP, JSP, ASP, PSP und Mason Server-Tags werden vom Parser ausdrücklich anerkannt. Dies bedeutet, dass normale HTML noch richtig analysiert wird, auch wenn es Server-Tags in ihnen, die beispielsweise üblich, wenn dynamisch Element Attribute zu setzen. · · Es ist weder ein Ereignis noch Baum basierten Parser, sondern verwendet eine Kombination aus einfacher Textsuche, effizienter Tagerkennung und einem Tag-Position-Cache. Der Text des gesamten Quelldokument wird zunächst in den Speicher geladen und dann nur die relevanten Segmente für die entsprechenden Zeichen jeder Suchoperation durchsucht. · Im Vergleich zu einem Baum basierte Parser wie DOM, können die Speicher- und Ressourcenanforderungen werden weit besser, wenn nur kleine Teile des Dokumentes Bedarf analysiert oder modifiziert werden. Fehlerhafte oder schlecht im HTML-Format kann leicht ignoriert, im Gegensatz zu Baum basierte Parser, die jeden Knoten in dem Dokument von oben nach unten identifizieren müssen. · · Im Vergleich zu einem ereignisbasierten Parser wie SAX, ist die Schnittstelle, auf einem viel höheren Niveau und intuitive und eine Baumdarstellung der Hierarchie Dokumentelement wird leicht bei Bedarf erzeugt. · · Die Anfangs- und Endpositionen in dem Quelldokument aller Segmente geparsten zugänglich sind, so dass Änderung der nur ausgewählte Segmente des Dokuments ohne das gesamte Dokument von einem Baum zu rekonstruieren sind. · · Die Zeilen- und Spaltennummer jeder Position im Quelldokument ist leicht zugänglich. · · Bietet eine einfache, aber umfassende Schnittstelle für die Analyse und Manipulation von HTML-Formular-Steuerelemente, einschließlich der Gewinnung und Bevölkerung von Anfangswerten, und die Umstellung auf read-only oder Daten Anzeigemodi. Analyse der Form Kontrollen ermöglicht auch von der Form empfangenen Daten gespeichert und in geeigneter Weise präsentiert werden. · Benutzerdefinierte Tag-Typen leicht definiert und für die Erkennung durch den Parser registriert werden können. · · Built-in-Funktionalität der gesamten Text aus HTML-Markup, geeignet zum Einspeisen in eine Text Suchmaschine wie Apache Lucene zu extrahieren. · · Built-in-Funktionalität zu machen HTML-Markup mit einfacher Textformatierung. · · Eingebaute Funktionalität zu Format HTML-Quellcode, Einzüge Elemente nach ihrer Tiefe in der Dokumentelementhierarchie. · · Built-in-Funktionalität zu kompaktem HTML-Quellcode durch alle unnötigen Leerraum zu entfernen.


Jericho HTML PARSER. Zugehörige Software

Bygga.

BYGGA ist ein leistungsfähiges und flexibles Werkzeug, um kleine bis mittelgroße Websites zu bauen ...

209 747 KB

Herunterladen