Text :: deduper.

Nahes Duplikate-Erkennungsmodul
Jetzt downloaden

Text :: deduper. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Perl Artistic License
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Jan Pomikalek
  • Website des Verlags:
  • http://search.cpan.org/~janpom/

Text :: deduper. Stichworte


Text :: deduper. Beschreibung

In der Nähe von Duplikaten-Erkennungsmodul Text :: Deduper ist ein Perl-Modul, das die von Andrei Z. Broder von Andrei Z. BRODER vorgeschlagene Ähnlichkeit verwendet (http://www.ra.ethz.ch/cdstore/www6/technical/paper2055555.html), um ähnliche zu erkennen (Near-Duplikat) Dokumente, die auf ihrem Text basieren. Daher bietet es möglicherweise keine sehr guten Ergebnisse für z.B. Chinesisch.Synopsis Verwenden Sie Text :: Dicht $ deduper = neuer text :: deduper (); $ deduper-> add_doc ("doc1", $ doc1text); $ deduper-> add_doc ("doc2", $ doc2text); @similar_docs = $ deduper-> find_similar ($ doc3text); ... # löschen Sie in der Nähe von Duplikaten aus einem Array von Texten $ deduper = neuer text :: deduper (); FORECH $ Text (@texte) {Nächstes, wenn $ deduper-> find_similar ($ text); $ deduper-> add_doc ($ i ++, $ text); Push @NO_NEAR_DUPLIKATES, $ Text; } Anforderungen: · Perl.


Text :: deduper. Zugehörige Software