Text :: Record :: deduper

separate vollständige, teilweise und nahe doppelte Textdatensätze
Jetzt downloaden

Text :: Record :: deduper Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Perl Artistic License
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Kim Ryan
  • Website des Verlags:
  • http://search.cpan.org/~kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

Text :: Record :: deduper Stichworte


Text :: Record :: deduper Beschreibung

Trennen Sie komplette, teilweise und nahe doppelte Textaufzeichnungen Text :: Record :: Deduper ist ein Perl-Modul mit separaten kompletten, teilweisen und in der Nähe von doppelten Textakten Mein $ deduper = neuer text :: record :: deduper; # Finde und entfernen Sie gesamte Zeilen, die dupliziert sind, deduper-> dedupe_file ("orig.txt"); # Dedupe-Kommas getrennte Datensätze, Duplikate, die von mehreren Feldern definiert sind, deduper-> feld_separator (','); $ deduper-> add_key (feld_number => 1, ignore_case => 1); $ deduper-> add_key (feld_number => 2, ignore_whitespace => 1); # Eindeutige Datensätze Gehen Sie zu Dating_uniqs.csv, Dupes an names_dupes.csv $ deduper-> dedupe_file ('names.csv'); # In der Nähe von Dupes finden Sie, indem Sie den angegebenen Namen Aliase My% Nick_Names = (BOB => 'ROBERT', ROB => 'ROBERT'); Mein $ neun_deduper = Neuer Text :: Record :: deduper (); $ neug_deduper-> add_key (field_number => 2, alias => \% nick_names) oder sterben; $ neug_deduper-> dedupe_file ('names.txt'); # Erstellen Sie einen Textbericht, namens_report.txt, um alle Duplikate $ atember_deduper-> report_file ('names.txt', ALL_RECORDS => 1); # Finden Sie "Nahe" DUPPES in einem Array von Datensätzen, geben Sie die Referenzen auf ein einzigartiges und ein Duplikat-Array zurück Datensätze und teilen Sie es in eine einzigartige Datei eindeutig und eine Datei mit doppelten Datensätzen.Records sind als Felder definiert. Felder können durch Leerzeichen, Kommas, Tabs oder ein anderes Trennzeichen getrennt werden. Datensätze werden durch eine neue Zeile getrennt. Wenn keine Optionen angegeben werden, wird ein Duplikat nur erstellt, wenn alle Felder in einem Datensatz (die gesamte Zeile) dupliziert sind nicht mehr als einmal pro Datensatz auftreten. Es gibt auch Optionen, um die Fallsensitivität, den führenden und nachlaufenden weißen Platz zu ignorieren. "Nahezu" oder "Fuzzy" -Duplikate können definiert werden. Dies geschieht durch Erstellen von Aliasen wie Bob => Robert.Das Modul ist nützlich, um Duplikate zu finden, die durch mehrere Dateneingabe erstellt wurden, oder das Zusammenführen von ähnlichen Datensätzen. Anforderungen: · Perl.


Text :: Record :: deduper Zugehörige Software