Text :: deduper. Ranking & Zusammenfassung
- Lizenz:
- Perl Artistic License
- Name des Herausgebers:
- Jan Pomikalek
- Website des Verlags:
- http://search.cpan.org/~janpom/
Text :: deduper. Stichworte
Text :: deduper. Beschreibung
In der Nähe von Duplikaten-Erkennungsmodul Text :: Deduper ist ein Perl-Modul, das die von Andrei Z. Broder von Andrei Z. BRODER vorgeschlagene Ähnlichkeit verwendet (http://www.ra.ethz.ch/cdstore/www6/technical/paper2055555.html), um ähnliche zu erkennen (Near-Duplikat) Dokumente, die auf ihrem Text basieren. Daher bietet es möglicherweise keine sehr guten Ergebnisse für z.B. Chinesisch.Synopsis Verwenden Sie Text :: Dicht $ deduper = neuer text :: deduper (); $ deduper-> add_doc ("doc1", $ doc1text); $ deduper-> add_doc ("doc2", $ doc2text); @similar_docs = $ deduper-> find_similar ($ doc3text); ... # löschen Sie in der Nähe von Duplikaten aus einem Array von Texten $ deduper = neuer text :: deduper (); FORECH $ Text (@texte) {Nächstes, wenn $ deduper-> find_similar ($ text); $ deduper-> add_doc ($ i ++, $ text); Push @NO_NEAR_DUPLIKATES, $ Text; } Anforderungen: · Perl.
Text :: deduper. Zugehörige Software