| htmltotext. Extrahieren von Text und etwas Metainfo von HTML, das mit fehlerhaften Seiten, so gut wie möglich fertig sind. |
Jetzt downloaden |
htmltotext. Ranking & Zusammenfassung
- Name des Herausgebers:
- Richard Boulton
- Website des Verlags:
- http://lemurconsulting.com
htmltotext. Stichworte
htmltotext. Beschreibung
Extrahieren Sie Text und einige Metainfo von HTML, um mit fehlerhaften Seiten so gut wie möglich fertig zu werden. HTMLTotext ist ein Python-Paket, das für eine Suchmaschine geschrieben wurde, um den Textinhalt und Metadaten von HTML-Seiten zu extrahieren. Es versucht, mit ungültigem Markup und falsch angegebenen Zeichensätzen fertig zu werden, und streift HTML-Tags (aufteilen Sie Wörter angemessen in Tags) aus. Es verwirft auch den Inhalt von Skript-Tags und Style-Tags. Als Text vom Körper der Seite, extrahiert er den Seitentitel und den Inhalt der Meta-Beschreibung und des Keyword-Tags. Es wird auch Meta-Roboter-Tags analysiert, um zu bestimmen, ob die Seite indexiert werden soll. Der von diesem Modul verwendete HTML-Parser wurde aus der Xapian-Suchmaschinenbibliothek (und insbesondere vom OMINDEX-Indexierungsdienstprogramm in dieser Bibliothek extrahiert. Anforderungen: · Python
htmltotext. Zugehörige Software