Verwalten von Gigabytes für Java

Verwaltung von Gigabytes für Java ist ein kostenloses Full-Text-Indexierungssystem für große Dokumentensammlungen, die in Java geschrieben wurden.
Jetzt downloaden

Verwalten von Gigabytes für Java Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • LGPL
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Sebastiano Vigna
  • Website des Verlags:
  • http://archive4j.dsi.unimi.it/

Verwalten von Gigabytes für Java Stichworte


Verwalten von Gigabytes für Java Beschreibung

Verwalten von Gigabytes für Java ist ein kostenloses Volltext-Indexierungssystem für große Dokumentensammlungen, die in Java geschrieben wurden. Verwalten von Gigabytes für Java (MG4J) ist ein kostenloses Volltext-Indexierungssystem für große Dokumentensammlungen, die in Java geschrieben wurden. Als Nebenprodukt bietet es mehrere allgemeine optimierte Klassen, einschließlich schneller und kompakter Mutable, Bit-Level-E / A, schnelle unbestreitete gepufferte Bäche, (möglicherweise signiert) minimal perfektes Hashing für sehr große Saitensammlungen uswith Release 1.1, MG4J wird ein hoch anpassbares, hochwertiges, vollwertiges Textindexierungssystem, das modernste Merkmale (wie BM25-Scoring) und neue Forschungsalgorithmen bereitstellt. Hier sind einige wichtige Funktionen von "Verwalten von Gigabytes für" Java ": Mächtige Indexierung. Die Unterstützung von Dokumentensammlungen und -fabriken ermöglicht es, konsequent große Dokumentensammlungen zu analysieren, zu indexieren und zu abzufragen, die leicht verständliche Ausschnitte bieten, die relevante Passagen in den abgerufenen Dokumenten hervorheben. - Effizienz. Wir bieten keine sinnlosen Daten wie "We Index X GIB pro Sekunde" (mit welcher Konfiguration? Welche Sprache? Welche Datenquelle?) - Wir laden Sie ein, es auszuprobieren. MG4J kann ohne Anstrengungen index indexieren - Multi-Index-Intervallsemantik. Wenn Sie eine Abfrage einreichen, kehrt MG4J für jeden Index eine Liste von Intervallen, die die Abfrage erfüllen. Dies bietet der Basis für mehrere hochpräzise Griffe und für eine sehr effiziente Umsetzung anspruchsvoller Betreiber. Die Intervalle werden in der linearen Zeit mit neuen Forschungsalgorithmen eingebaut. - ausdrucksstarke Betreiber. MG4J geht weit über das Modell des Wortes hinaus und bietet eine effiziente Implementierung von Phrasenabfragen, Näherungsbeschränkungen, bestellten Konjunktion und kombinierten Anfragen mit mehreren Index. Jeder Betreiber ist intern von einem abstrakten Objekt dargestellt, sodass Sie Ihre Lieblingssyntax problemlos anschließen können. - virtuelle Felder. MG4J unterstützt virtuelle Felder-Felder, die Text für ein anderes, virtuelles Dokument enthalten; Das typische Beispiel ist ein Ankertext, der dem Zieldokument zurückzuführen ist. - Flexibilität. Sie können wesentlich kleinere Indizes bauen, indem Sie die Bezeichnungspositionen fallen, oder sogar Begriffe. Es liegt an dir. Es können mehrere verschiedene Arten von Codes ausgewählt werden, um Effizienz und Indexgröße auszugleichen. Dokumente, die aus einer Sammlung kommen, können neu nummeriert werden (z. B. an einem statischen Rang oder Experiment mit Indexierungstechniken). - Offenheit. Die Dokument-Kollektion / Factory-Schnittstellen ermöglicht eine einfache Möglichkeit, Ihre eigene Datendatenvertretung an MG4J vorzustellen, wodurch es zu einem Brise zum Einrichten einer webbasierten Suchmaschine ist, die direkt Ihre Daten zugreifen kann. Jedes Element entlang des Pfads der Abfrageauflösung (Parser, Document-iterator-Builder, Abfragemotoren usw.) kann mit Ihren eigenen Versionen ersetzt werden. - Verteilte Verarbeitung. Indizes können für eine Sammlung in mehreren Teilen aufgebaut und später kombiniert. Die Kombination von Indizes ermöglicht nicht zusammenhängende Indizes, und selbst das gleiche Dokument kann über verschiedene Sammlungen aufgeteilt werden (z. B. beim Indexieren von Ankertext). - Multithreading. Indizes können künftig abgefragt und bewertet werden. - Clustering. Indizes können lesexisch und dokumentell gruppiert werden (möglicherweise nach einer Partitionierung). Das Clustering-System ist vollständig geöffnet, und benutzerdefinierte Strategien entscheiden, wie Dokumente aus verschiedenen Quellen kombiniert werden können. Diese Architektur ermöglicht es beispielsweise, den RAM den Teil eines Index zu laden, der Begriffe enthält, die häufiger in Benutzerabfragen erscheint. Anforderungen: · Fastutil · Jal. Was ist neu in dieser Version: · WARNUNG: Massive Revampe des DokumentiteratorVisator-Subsystems. Nun können solche Besucher Daten wiedergeben, ähnlich wie ein QueryiteratorBuilderVisator. Es hat auch eine spezielle Besuchsmethode für MultiterminTexiterer. Sie müssen Ihre vorherigen Implementierungen anpassen. · Warnung: Um eine Analyse (MutableString) -Methode und zwei neue Escape-Methoden zur Verfügung zu stellen, die verwendet werden können, um eine Zeichenfolge in ein Text-Token zu drehen. Diese Funktion ist grundlegend für die automatische Abfrageerzeugung (dank Hugo Zaragoza, um dieses Problem aufzuzeigen). · WARNUNG: Um ein paar Dinge einfacher zu machen, haben wir jetzt explizite Dokument-Iteratoren, die true und FALSE darstellen. Ihre Konstruktion erfordert einen Referenzindex (im Gegensatz dazu, dass mit DocumentInteratoren erfolgt. Die Iteratoren werden von den Token #TRUE und #FALSE generiert. · Warnung: Die Indexierung von virtuellen Feldern verwendet viel weniger Speicher, aber die Chargen haben jetzt einen anderen Inhalt: Sie stellen tatsächliche Positionen im endgültigen virtuellen Dokument dar. Die Größen jedes Batches repräsentieren die bekannte Größe eines virtuellen Moments, wenn der Charge geschrieben wurde. Mit dieser Änderung erfordern Paste keine mehr Speicher mehr als verkettend. · WARNUNG: Eine neue RemappingDocumentiterator-Klasse ermöglicht es, Ergebnisse aus verschiedenen Indizes mit Positionsbetreibern zu mischen. Da es einen neuen REMAP-Abfrageknoten gibt, müssen alle DocumentVisitoren aktualisiert werden. · WARNUNG: Alle veralteten Klassen wurden entfernt. · WARNUNG: Die Option -b-Option von IndexBuilder ist nun auf den Scan-Anweisungen ausgerichtet - er gibt den Basisamen einer Sammlung an, die zur Indexzeit erstellt werden soll. Es war früher die Größe des Mähdrescherpuffers. · Neue Klassen für eine effiziente Konstruktion von Dokumentensammeln bei der Indexzeit. Die Architektur ist jetzt auch sehr offen - Sie können Ihre eigenen Bauherren einschließen. · Komplett umstrukturiertes Größenhandling für Mähdrescher und Unterklassen. Wenn Sie keine Golomb-Codierung verwenden, müssen Sie keine Größen laden. Dies gilt sogar sogar von Chargen virtueller Felder, da Nun standardmäßig keine Positionen neu nennt, sondern davon erwartet, dass sie bereits neu nummeriert werden. Das alte Verhalten kann über eine Flagge erhalten werden. · Wir zogen in den Anlegesteg 6. Auch ein paar Probleme mit der Geschwindigkeit, die keine Vorlagen finden, wurden behoben. · Neue, intelligentere Memory-Handhabung, die in der Lage sein sollte, vollständig ausgestellte Fehler zu vermeiden. Es gibt auch eine Begrenzung der Anzahl der Begriffe pro Batch, die bei der Müllsammlung helfen sollte. · Ein Fehler in der Erstellung der Sammlung behoben: Wir haben die Originalfabrik bereitgestellt, aber dies ist falsch, da wir möglicherweise nicht alle Felder indexieren. Jetzt generieren wir eine geeignete Fabrik, die nur die indizierten Felder enthält. · Neue wichtige Funktion: Hochleistungsindizes können je nach Listenfrequenz und Dichte nun variable Quanta aufweisen. Indizes jetzt Sport Eine. Posnumbit-Datei, die aufzeichnet, wie viele Bits zum Speichern von Positionen verwendet werden. Es wird als Grundstatistik verwendet, um das richtige Quantum zu berechnen. Sie können nach einem Prozentsatz des Index bitten, um Türme zu überspringen, und das richtige Quantum für jede Liste wird für Sie berechnet. Der Prozess ist ziemlich empirisch, so prüfen Sie also immer. Stats-Dateien, um zu überprüfen, ob Sie tatsächlich nicht mehr als den angeforderten Prozentsatz verwenden. Im Allgemeinen müssen alte Indizes wieder aufgebaut werden, bevor sie sie in einen Index mit variabler Quanta kombinieren können, aber für Hochleistungsindizes können die Tool-Computposnumbitpositionen verwendet werden, um die fehlende Datei hinzuzufügen. · Die Speicherzuordnung von Indizes nutzt jetzt den neuen multiplexierten Ansatz, der in Bytebufferinputstream implementiert ist. Dies bedeutet, dass wir im Wesentlichen jeden Index in den Speicher zuordnen können. Dank von Valentin Tablan und Ian Roberts, um diesen Ansatz vorzuschlagen. · Jetzt verfügen wir über eine Implementierung der hochmodernsten BM25F-Rangliste. · ZIPDocumentCollection.getInstance () ermöglicht es, realisierbare ZipDocumentCollection-Instanzen, auch wenn sie sich nicht im aktuellen Verzeichnis befinden, realisierbare ZipDocumentCollection-Instanzen zu laden. · NEUE UTF-8 Nizzale mathematische Symbole für Konjunktion, Disjunktion, wahr und falsch. · Problem mit zu vielen Verbindungen geöffnet, wenn Sie JDBCDocumentCollection verwenden. · Ein neuer aktiver URI-Schlüssel ermöglicht es, die Ladegrößen in eine ELIAS-FANO-komprimierte Liste zu bitten. Dies wird den Zugang um zwei Größenordnungen verlangsamen, aber es kann sehr nützlich sein, wenn sie große Indizes einfügen, da ein Fleisch, um eine große Menge an Größendaten zu laden. · DeyIndexiterator-Instanzen sind keine indexbasierten Singletons mehr. Diese Änderung war notwendig, um die Rangliste von Algorithmen auszuführen, die erforderlich sind, um das Gewicht oder die ID selbst von leeren Iteratoren einzustellen. Dies sollte kein Problem verursachen. · Alle Dokumenten-Iteratoren haben jetzt ein einstellbares Gewicht. Das Gewicht kann mit Klammern in der Standardsyntax erkrankt werden. Beachten Sie, dass Gewichte an sich keine Bedeutung haben - es liegt an den Torschützen, sie zu benutzen. · Nun generiert die Metadata-Only-Option des Kombinats und seiner Implementierungen die Frequenzatei. Dies ist sehr nützlich, da es möglich ist, die Begriffsfrequenzen für die virtuellen Dokumente zu berechnen, die durch Verkettung aller Felder erzielt werden, was für die korrekte Berechnung von BM25F notwendig ist. · Ein Fehler in der Grammatik behoben: Anfragen wie "(a))" worden wäre als "(a)" aufgrund des Mangels an EOF (dank Hugo Zaragoza, um diesen Fehler zu melden). · Der Parser akzeptiert jetzt Unicode-Zeichen 0x2227 und 0x2228 (die standardmäßigen mathematischen Symbole für Konjunktion und Disjunktion) für und bzw. bzw.. · Nach einigen Tests TREC GOV2 wurden die Standardeinstellungen für MaxPreanchor und Maxpostchor in HTMLDOCUternFactory auf 8 bzw. 4 reduziert. · Alter Fehler in SemiExternalgammalist festgelegt; Readbits (0) wurde nach Numlongs-Schätzung nicht aufgerufen, was zu EOFExceptions führt. · Dokumentzeiger können jetzt in unary codiert werden. · BAD-Fehler in Partitionstlexex behoben: Für Hochleistungsindizes wurden die Positionen des letzten Begriffs nicht geschrieben. · HttpfileServer hat einen einstellbaren Port. · Neues Scorer.getweights () -Methode, um Gewichte zu erhalten. · Ein Fehler in TFIDF-SCORER behoben, der NAN verursacht hätte. · Abfrage akzeptiert neben dem üblichen serialisierten Objekt eine neue Titelliste der Titel.


Verwalten von Gigabytes für Java Zugehörige Software