| Terrier Ein probabilistisches Java-Toolkit für das Bau von Suchmaschinen. |
Jetzt downloaden |
Terrier Ranking & Zusammenfassung
- Name des Herausgebers:
- University of Glasgow
- Website des Verlags:
- http://ir.dcs.gla.ac.uk/terrier/
Terrier Stichworte
Terrier Beschreibung
Ein probabilistisches Java-Toolkit für den Bau von Suchmaschinen. Terrier-Projekt ist ein probabilistisches Java-Toolkit für den Bau von Suchmaschinen. Errier ist Software für die schnelle Entwicklung von Web-, Intranet- und Desktop-Suchmaschinen. Im Allgemeinen ist es eine modulare Plattform zum Aufbau von Abrufanwendungen in Großinformationen, die Indizierung und probabilistische Abruffunktionalitäten bereitstellen. Es verfügt über eine Desktop-Suche. Terrier verfügt über einen leistungsstarken Proof-of-Concept-Desktop-Suchantrag und vollständige Trec-Funktionen, einschließlich der Möglichkeit, die Standard-TREC-Kollektionen zu indexieren, abzufragen und zu bewerten, wie AP, WSJ, WT10G, .gov und .gov2. Terrier ist in Java geschrieben und wurde erfolgreich für ADHOC Retrieval, Web Suchen und Rufenbereitschaftsabruf in einer zentralisierten oder verteilten Umgebung erfolgreich verwendet. Derzeit wird es auch zum Ausführen verschiedener Anwendungen verwendet. Hier sind einige wichtige Funktionen von "Terrier": · Open Source (Mozilla Public License) · In der plattformübergreifenden Java geschrieben · Hochgedrückte Datendatenstrukturen. · Umgang mit großen Dokumentensammlungen. · Direkte Datei für eine effiziente Abfrageerweiterung. · Modulare und offene Indexierung und Abfrage von APIs. · Testbett für die Indexierung und Abrufen von Standard-TREC-Testsammlungen. · Interaktive Abfrageanwendung. · Desktop-Suchanwendung für die Suche verschiedener Arten von Dokumenten. · Eingabe / Ausgabe von Gamma, unary- und binären codierten Ganzzahlen zum Komprimieren von Streams oder Direktzugriffsdateien. · Standardauswertung von TREC-Ad-hoc- und bekannten Suchergebnissen. · Indexierung von markierten Dokumentensammlungen sowie Dokumente verschiedener Formate, z. B. HTML-, PDF- oder Microsoft-Word-, Excel- und PowerPoint-Dateien. · Indexierung von Feldinformationen. · Indexierung von Positionsinformationen auf einem Wort oder einem Blockebene. · Unterstützung für klassische Abrufmodelle wie TF-IDF, BM25 und Ponte-Croft-Sprachmodell sowie Rocchio-Abfrageerweiterung. · Bietet eine Reihe von Divergenz aus dem Rangliste (DFR) -Dokumentierungsmodelle. · Bietet eine Reihe von parameterfreien DFR-Begriffs-Gewichtungsmodellen für die automatische Abfrageerweiterung. · Erweiterte Abfragesprache, die unterstützt und / nicht Betreiber, Phrase und Proximity-Suche. · Flexible Bearbeitung von Begriffen durch eine Pipeline von Komponenten, wie zum Beispiel Stoppwörterentferner und Stemmers. Was ist neu in dieser Version: · Dies ist ein wesentliches Update, das eine neue Unterstützung für Hadoop beinhaltet, in erster Linie ein HADOOP-Karten, das Indexierungssystem reduziert, wodurch große Sammlungen von Dokumenten in einer hochverteilten Mode indexiert werden können. · Ebenfalls enthalten sind verschiedene kleinere Verbesserungen, einschließlich verbesserter Unterstützung für die IIT-CDIP1-Kollektion (TREC-Rechtsspur) und verschiedene Fehlerbehebungen. · Dies soll die ultimative Version in der 2.x-Serie sein.
Terrier Zugehörige Software