HTML-Parser

HTML-Parser ist eine Java-Bibliothek, mit der HTML entweder linear oder verschachtelt ist.
Jetzt downloaden

HTML-Parser Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • LGPL
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Derrick Oswald
  • Website des Verlags:
  • http://htmlparser.org

HTML-Parser Stichworte


HTML-Parser Beschreibung

HTML-Parser ist eine Java-Bibliothek, mit der HTML entweder linearer oder verschachtelter Weise analysiert wird. HTMLPARSER ist ein superschneller Echtzeit-Parser für Real-World HTML. Was die meisten Entwicklern an HtmlParser anziehen hat, ist ihre Einfachheit in Design, Geschwindigkeit und Fähigkeit, mit dem Streaming Real-World HTML zu handhaben. Die beiden grundlegenden Anwendungsfälle, die von dem Parser abgewickelt werden, sind Extraktion und Transformation (der Synthesen-Verwendung-Case, wobei HTML Seiten werden von Grund auf erstellt, wird besser von anderen Werkzeugen, die näher an der Datenquelle näher sind). Während frühere Versionen auf die Datenextraktion von Webseiten konzentriert sind, hat Version 1.4 des HTMLPARSER erhebliche Verbesserungen im Bereich der Transformationswebseiten mit vereinfachtem Tag-Erstellung und Bearbeitung und Verbatim TOHTML () -Methode Output. Um HTMLPARSER zu verwenden, müssen Sie benötigen um Code in der Java-Programmiersprache schreiben zu können. Obwohl einige Beispielprogramme bereitgestellt werden, die bei der Erstellung nützlich sein können, benötigen Sie mehr als wahrscheinlich, dass Sie Ihre eigenen Programme erstellen oder diejenigen ändern, die zur Verfügung gestellt werden sollen, um Ihre beabsichtigte Anwendung anzupassen. Um die Bibliothek zu verwenden, müssen Sie die Bibliothek verwenden. Fügen Sie Ihren Klassenpfad entweder den HTMLlexer.jar oder HTMLPARSER.JAR hinzu, wenn Sie beim Kompilieren und Laufen kompilieren. Der HTMLEXER.JAR bietet einen niedrigen Pegelzugriff auf generische Zeichenfolge, Bemerkungen und Tag-Knoten auf der Seite auf einer linearen, flachen, sequentiellen Weise. Der HTMLParser.jar, der die in htmllexer.jar gefundenen Klassen enthält, bietet Zugriff auf eine Seite als Folge von verschachtelten differenzierten Tags, die Zeichenfolge, Bemerkung und andere Tag-Knoten enthalten. Wenn also die Ausgabe von Anrufen an die Lexer NextNode () -Methode ist: "Welcome" usw. Die Ausgabe des Parser-Nodeiterators würde nisten Sie die Tags als Kinder der und anderen Knoten (hier dargestellt durch Einrückung): "Welcome" etc ... Der Parser versucht, auszugleichen Öffnen Sie Tags mit End-Tags, um die Struktur der Seite darzustellen, während der Lexer die Knoten einfach ausspuckt. Wenn Ihre Anwendung nur ein modernste strukturelles Wissen der Seite erfordert und hauptsächlich mit individuellen, isolierten Knoten betrifft, sollten Sie den leichten Lexer in Betracht ziehen. Wenn jedoch Ihre Bewerbung Kenntnisse über die verschachtelte Struktur der Seite erfordert, z. B. Verarbeitungstabellen, werden Sie wahrscheinlich die vollständige Parser-Datei verwenden. Diese Abdeckungen verwendet wie: · Text-Extraktion, zur Verwendung als Eingabe für Textsuche-Datenbanken zum Beispiel · Link-Extraktion, um durch Webseiten zu krabbeln oder E-Mail-Adressen zu ernten · Screenabriss, für die Programmatische Dateneingabe von Webseiten · Ressourcenabsaugung, Sammeln von Bildern oder Sound · Ein Browser-Frontend, das vorläufige Phase der Seitenanzeige · Linküberprüfung, Sicherstellung von Links sind gültig · Site-Überwachung, Überprüfung von Seitenunterschieden, die über einfach differiert sind, sind mehrere Anlagen in der HTMLPARSER-Codebase, um mit der Extraktion zu helfen, einschließlich Filter, Besucher und Besucher Javabeers.TransformationTransformation umfasst alle Verarbeitung, in der die Eingabe und der Ausgang HTML-Seiten sind. Einige Beispiele sind: · URL-Umschreiben, Ändern von einigen oder allen Links auf einer Seite · Site Capture, Verschieben des Inhalts von der Web bis zur lokalen Festplatte · Zensur, Entfernen von Beleidigenden Wörtern und Sätzen von Seiten · HTML-Bereinigung, korrigierende fehlerhafte Seiten · Anzeigenentfernung, Entfernung URLs referenzieren Werbung · Umwandlung in XML, um vorhandene Webseiten in Xmlding oder nach dem Lesen in einer Seite zu verschieben, können Vorgänge in den Knoten viele Transformationsaufgaben erfolgen, die dann mit dem TOHTML () -Methode ausgegeben werden können. Je nach Zweck Ihrer Anwendung möchten Sie wahrscheinlich in Knoten Debern, Besucher oder benutzerdefinierte Tags in Verbindung mit dem PrototypicalNodefactory suchen. Der HTML-Parser ist eine Open-Source-Bibliothek, die unter GNU-General Allgemeine öffentliche Lizenz veröffentlicht wird, was grundsätzlich sagt, dass Sie es tun Frei, die Bibliothek "as is ist" in anderen (selbst proprietären) Produkten, solange der Kreditkredit den Autoren gegeben ist, und der Quellcode für den HTMLPARSER ist mit dem anderen Produkt enthalten. Wenden Sie sich an die LGPL-Lizenz, um modifiziert oder eingebettet zu verwenden.


HTML-Parser Zugehörige Software

Nvtcom.

NVTCOM ist eine Bibliothek für den Zugriff auf die Verwendung von Java RFC2217-Geräten. ...

127

Herunterladen

Japar

JAVA ist eine Java-API, die so konzipiert wurde, dass sie die API der Sun-API mit verschiedenen Funktionen ausdehnt. ...

165

Herunterladen

Libphish

libphish ist eine plattformübergreifende Bibliothek, um mit der offenen Phishing-Datenbank zu interagieren. ...

141

Herunterladen

Smalloc

SMALOC (Static Memory Puffer Malloc) ist ein idealer Speichermanager für Echtzeit-Linux-Kernel-Module. ...

218

Herunterladen