Text :: Bloom.

Text :: BLOOM kann die Unterschrift der Bloom-Unterschrift eines Satzes auswerten.
Jetzt downloaden

Text :: Bloom. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • Perl Artistic License
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Andrea Spinelli and Walter Vannini
  • Website des Verlags:
  • http://search.cpan.org/~aspinelli/Text-Document-1.07/Bloom.pod

Text :: Bloom. Stichworte


Text :: Bloom. Beschreibung

Text :: BLOOM kann die Unterschrift der Bloom-Unterschrift einer Reihe von Begriffen bewerten. Text :: Bloom kann die Unterschrift der Bloom-Unterzeichnung eines Satzes von Ausführungen bewerten.Synopsis My $ B = Text :: Bloom-> Neu (); $ b-> berechnen (QW (Foo Bar BAZ); mein $ sig = $ b-> writetostring (); $ b-> writetofil ('afile.sig'); mein $ b2 = text :: bloom :: newfromfile ('afile.sig'); mein $ b3 = text :: bloom-> neu (); $ B3-> COMPUTE (QW (Foo Bar Barbaz)); meine $ sim = $ b-> Ähnlichkeit ($ b2); My $ B4 = Text :: Bloom :: Newfromstring ($ SIG); Text :: Bloom wendet die Bloom-Filtertechnik zur statistischen Analyse der Dokumente an. Die Begriffe des Dokuments werden mit einer Basis-36-Radix-Darstellung quantisiert. Jeder Begriff entspricht somit einer Ganzzahl im Bereich von 0..p-1, wobei P ein Primum ist, der derzeit auf die größte Prime von weniger als 2 ^ 32 eingestellt ist. Der quantisierte Wert wird der D-Ganzzahl im Bereich 0..größe zugeordnet -1, wobei Größe eine ganze Zahl ist, die weniger als p ist, derzeit 2 ^ 17, wobei mit einer Familie von Hash-Funktionen, die von der HashV-Funktion berechnet wird. Der Hash-Wert wird als Index in einem großen Bit-Vektor verwendet. Bits, die den in dem Dokument vorhandenen Bedingungen entsprechen, sind auf 1 eingestellt; Alle anderen Bits sind auf 0-Nr. Natürlich eingestellt, Kollisionen können dazu führen, dass das gleiche Bit zweimal eingestellt wird, durch unterschiedliche Begriffe. Daraus folgt, dass, wenn das Dokument n unterschiedliche Begriffe enthält, im resultierenden Bitvektor höchstens N * D-Bits auf 1.Die resultierende Bit-Zeichenfolge ist eine sehr kompakte Darstellung der Anwesenheit / Abwesenheit von Begriffe im Dokument und ist daher als Signatur gekennzeichnet. Darüber hinaus hängt es nicht von einem voreingestellten Wörterbuch ab. Die Signatur kann verwendet werden, damit: Testen getestet werden, ob ein bestimmter Satz von Bedingungen in dem Dokument vorhanden ist, und der Berechnen, den der Bruchteil der Begriffe für zwei Dokumente üblich ist. Die Bitdarstellung darf in einer Datei geschrieben und gelesen werden. Text :: Bloom ordentiert einen Header zum richtigen Bitstrom; Immerhin, wenn das Paket komprimiert :: ZLIB ist verfügbar, wird der Bitvektor komprimiert, so dass speziell für kleine Dokumente drastisch reduziert werden, so dass die Festplattenlaufzeit drastisch reduziert werden. Die Hashfunktion ist offensichtlich eine entscheidende Komponente des Filters; Die Referenzimplementierung verwendet eine Radix-Darstellung von Saiten. Jeder Begriff muss daher mit dem regulären Ausdruck / [0-9a-zsuts+ + abgleichen · Perl.


Text :: Bloom. Zugehörige Software