| PdTextstream. Eine PDF-Text- und Metadaten-Extraktionsbibliothek für Java, Python und .NET. |
Jetzt downloaden |
PdTextstream. Ranking & Zusammenfassung
- Lizenz:
- Other/Proprietary Li...
- Preis:
- USD 1900.00 | BUY the full version
- Name des Herausgebers:
- Snowtide Informatics Systems, Inc.
- Website des Verlags:
- http://snowtide.com/
PdTextstream. Stichworte
PdTextstream. Beschreibung
Eine PDF-Text- und Metadaten-Extraktionsbibliothek für Java, Python und .NET. PdTextStream-Projekt ist eine PDF-Text- und Metadaten-Extraktionsbibliothek, die für Java, Python und .NET verfügbar ist. Zeichensätze (einschließlich Chinesisch, japanisch und koreanisch), Entschlüsselung von 40-Bit- und 128-Bit-verschlüsselten Dokumenten sowie die Extraktion aller von PDF-Dokumenten bereitgestellten Dokumentenmetadaten (einschließlich Formatendaten, Lesezeichen und Anmerkungen). Eine einfache Integration mit Jakarta Lucene ist enthalten. Anforderungen: · Apache Lucene. Was ist neu in dieser Version: · Zusätzliche · Verbesserte PdTextstreams Unterstützung für eingebettete Zeichenzuordnungen. · Die Berechnung des Whitespace zwischen Wörtern wurde behoben, um den Whitespace richtig zu berücksichtigen, der explizit in den Quell-PDF-Dokumenten codiert ist. · Verbesserte PDTTextstreams Handhabung von Verbundzählerkodierungen, die zuvor nicht fehlschlagen könnten, was dazu führt, dass einige Bereiche des PDF-Inhalts während der Extraktion "ignoriert" werden. · Ein Fehler in VisualOutputTarget behoben, in dem Text aus einer einzelnen Zeile mehrere Zeilen aufgeteilt werden würde · Verbesserte vertikale Ausrichtung von text extrahiert mit visualoutputtarget · Verbesserte Visualoutputtarget-produzierte Extrakte, um den unechsen zusätzlichen Whitespace zwischen eng angrenzenden Wörtern zu beseitigen
PdTextstream. Zugehörige Software