htmltotext.

Extrahieren von Text und etwas Metainfo von HTML, das mit fehlerhaften Seiten sowie möglich
Jetzt downloaden

htmltotext. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • GPL
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Richard Boulton
  • Website des Verlags:
  • http://pypi.python.org/pypi/htmltotext/
  • Betriebssysteme:
  • Mac OS X
  • Dateigröße:
  • 26 KB

htmltotext. Stichworte


htmltotext. Beschreibung

Extrahieren Sie Text und einige Metainfo von HTML, um mit fehlerhaften Seiten herzustellen, sowie möglich HTMLTotext wurde für eine Suchmaschine geschrieben, damit er den Metadaten- und Textinhalt von HTML-Seiten problemlos extrahieren kann. HTMLTeText versucht, mit ungültigen Markup und falsch angegebenen Zeichensätzen umzugehen, und streift HTML-Tags (anteilsgeteilig auf TAGS angemessen) .HTMLTOTEXT den Inhalt von Skript-Tags und Stil-Tags. Neben Text aus dem Körper der Seite extrahiert er den Seitentitel und den Inhalt der Meta-Beschreibung und des Keyword-Tags. HTMLTotext partet auch Meta Robots-Tags an, um festzustellen, ob die Seite indexiert werden soll. Der von diesem Modul verwendete HTML-Parser wurde aus der Xapian-Suchmaschinenbibliothek (und insbesondere vom Omindex-Indizierungsdienstprogramm in dieser Bibliothek) extrahiert.


htmltotext. Zugehörige Software

Do-cms.

Eine Open-Source und ein leistungsstarkes webbasiertes Content-Management-System ...

205 7.5 MB

Herunterladen

Juggernaut

revolutionieren Sie Ihre Rails-App, indem Sie den Server eine Verbindung einleiten und Daten an den Client drücken ...

162 12 KB

Herunterladen

Rubycas-Server.

Open Source-Implementierung eines JA-SIG-CAS-Servers für Single Sign-On-Authentifizierung für Enterprise Web-Apps ...

441 240 KB

Herunterladen