Jtokeniser

Eine kostenlose Softwarelösung, die einen Satz von Tokenisern kombiniert, die intuitiv mit natürlicher Sprache ausgehen
Jetzt downloaden

Jtokeniser Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • GPL
  • Name des Herausgebers:
  • Andy Roberts
  • Betriebssysteme:
  • Windows All / Unix
  • Dateigröße:
  • 83 KB

Jtokeniser Stichworte


Jtokeniser Beschreibung

Tokening-Saiten in seine Konstituentenmarken / Wörter können für nicht triviale Beispiele schwierig sein. Wenn Sie sich insbesondere mit natürlicher Sprache handeln, müssen Sie auch Interpunktion berücksichtigen, um die Wörter zu isolieren. Jeder der Tokenisatoren übernimmt java.util.stringtokenizer eine ähnliche Struktur, um die Klassen instanziieren und die Token zu extrahieren. Dies bedeutet, dass sie einfach zu bedienen sind. Sie können eingeben, kopieren und einfügen oder sogar eine Textdatei in die Anwendung laden. Sie müssen Ihren Tokeniser von Wahl (und interessierenden Optionen) auswählen und dann auf die Schaltfläche Tokenise drücken. Ihre Ergebnisse werden angezeigt, sobald sie verarbeitet werden, und Sie haben die Möglichkeit, die Ergebnisse in Datei zu speichern, wenn Sie wählen. Die GUI ist besonders nützlich, um mit den Tookenisierungsmethoden in einer Lehrumgebung (z. B. einem NLP-Kurs) zu experimentieren. Es wird auch für diejenigen von Interesse sein, die die JTokeniser-Bibliothek nutzen möchten, jedoch nicht über die Java-Programmiererfahrung, um den Code direkt zu nutzen. Jtookeniser besteht aus vier Tokumenten, die alle von einer abgesteigten Tokeniser-Klasse erstrecken: · Whitespacetokener - Dies spaltet eine Zeichenfolge in alle Vorstände von Whitespace, zu denen Leerzeichen, Neulinien, Registerkarten und Linefeeds enthalten. · StringTokeniser - das ist im Grunde derselbe wie Java.Util.StringTokenizer mit einigen zusätzlichen Methoden (und erstreckt sich von TOKENERER). Das Standardverhalten ist, als Whitespacetokeniser zu fungieren, können Sie jedoch einen Satz von Zeichen angeben, die verwendet werden sollen, um Word-Delimiters anzuzeigen. · Regextokener - Dieser Tokeniser ist viel flexibler, da Sie regelmäßige Ausdrücke verwenden können, um ein was ein Token definieren kann. Also, "\ w +" bedeutet, wann immer es mit einem oder mehreren Buchstaben entspricht, es wird angemessen, dass ein Wort ein Wort ist. Standardmäßig ist es ein regelmäßiger Ausdruck, der einem Whitespace-Tokeniser entspricht. · Regexseparatortokeniser - Dies kann als fortschrittlicher StringTokenerer betrachtet werden. In der Erwägung, dass der StringTokeniser darauf beschränkt ist, Delimiters als Satz einzelner Charaktere zu definieren, kann RegexSeparatortokeniser regelmäßige Ausdrücke für einen reicheren und flexibleren Ansatz nutzen. · BreakiterAtokeniser - Einer der anspruchsvollsten Tokenisatoren in der Bibliothek, obwohl nur auf natürlichen Sprachzeichenfolgen verwendet werden sollte, um Wörter zu isolieren. Es verfügt auch über integrierte Regeln, wie Sie Wörter finden, um zu wissen, wie Sie die Interpunktion usw. ignorieren können, usw. · Sentencetzetokener - Dies verwendet auch ein Breakiterater wie das oben genannte, aber abgestimmt, um Satzgrenzen zu finden. Die "Tokens" in diesem Tokeniser sind in der Tat einzelne Sätze.


Jtokeniser Zugehörige Software