htmltotext.

Extrahieren von Text und etwas Metainfo von HTML, das mit fehlerhaften Seiten, so gut wie möglich fertig sind.
Jetzt downloaden

htmltotext. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • GPL
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Richard Boulton
  • Website des Verlags:
  • http://lemurconsulting.com

htmltotext. Stichworte


htmltotext. Beschreibung

Extrahieren Sie Text und einige Metainfo von HTML, um mit fehlerhaften Seiten so gut wie möglich fertig zu werden. HTMLTotext ist ein Python-Paket, das für eine Suchmaschine geschrieben wurde, um den Textinhalt und Metadaten von HTML-Seiten zu extrahieren. Es versucht, mit ungültigem Markup und falsch angegebenen Zeichensätzen fertig zu werden, und streift HTML-Tags (aufteilen Sie Wörter angemessen in Tags) aus. Es verwirft auch den Inhalt von Skript-Tags und Style-Tags. Als Text vom Körper der Seite, extrahiert er den Seitentitel und den Inhalt der Meta-Beschreibung und des Keyword-Tags. Es wird auch Meta-Roboter-Tags analysiert, um zu bestimmen, ob die Seite indexiert werden soll. Der von diesem Modul verwendete HTML-Parser wurde aus der Xapian-Suchmaschinenbibliothek (und insbesondere vom OMINDEX-Indexierungsdienstprogramm in dieser Bibliothek extrahiert. Anforderungen: · Python


htmltotext. Zugehörige Software

Docmgr

Docmgr ist ein voll ausgestattetes Dokumentenverwaltungssystem, das die automatische Indexierung von hochgeladenen Dateien enthält. ...

397

Herunterladen