| htmltotext. Extrahieren von Text und etwas Metainfo von HTML, das mit fehlerhaften Seiten sowie möglich |
Jetzt downloaden |
htmltotext. Ranking & Zusammenfassung
- Name des Herausgebers:
- Richard Boulton
- Website des Verlags:
- http://pypi.python.org/pypi/htmltotext/
- Betriebssysteme:
- Mac OS X
htmltotext. Stichworte
htmltotext. Beschreibung
Extrahieren Sie Text und einige Metainfo von HTML, um mit fehlerhaften Seiten herzustellen, sowie möglich HTMLTotext wurde für eine Suchmaschine geschrieben, damit er den Metadaten- und Textinhalt von HTML-Seiten problemlos extrahieren kann. HTMLTeText versucht, mit ungültigen Markup und falsch angegebenen Zeichensätzen umzugehen, und streift HTML-Tags (anteilsgeteilig auf TAGS angemessen) .HTMLTOTEXT den Inhalt von Skript-Tags und Stil-Tags. Neben Text aus dem Körper der Seite extrahiert er den Seitentitel und den Inhalt der Meta-Beschreibung und des Keyword-Tags. HTMLTotext partet auch Meta Robots-Tags an, um festzustellen, ob die Seite indexiert werden soll. Der von diesem Modul verwendete HTML-Parser wurde aus der Xapian-Suchmaschinenbibliothek (und insbesondere vom Omindex-Indizierungsdienstprogramm in dieser Bibliothek) extrahiert.
htmltotext. Zugehörige Software