| Älter -Allug ist eine Sammlung von Werkzeugen für die linguistische Corpus-Verarbeitung, die Word-Ausrichtung und das Begriff Extraktion von Parallel Corpora. |
Jetzt downloaden |
Älter Ranking & Zusammenfassung
- Name des Herausgebers:
- Joerg Tiedemann
Älter Stichworte
Älter Beschreibung
UPPLUG ist eine Sammlung von Werkzeugen für sprachliche Corpus-Verarbeitung, Word-Ausrichtung und Term-Extraktion von Parallel Corpora. UPPLUG ist eine Sammlung von Werkzeugen für sprachliche Corpus-Verarbeitung, Word-Ausrichtung und Term-Extraktion von Parallel Corpora. In UPPUG.PRE-Verarbeitungswerkzeugen wurden mehrere Tools integriert, umfassen einen Satz-Splitter, einen Tokenizer und einen externen Teil der Sprache-Tagger- und flachen Parsern. Die folgenden externen Werkzeuge werden verwendet: das GROK-System für Englisch (Tagging und Chunking) und der morphologische Analysator Chasen für Japanisch. Andere Werkzeuge wie der Treetagger können leicht hinzugefügt werden. Übersetzte Dokumente können mit dem längenbasierten Ansatz von Gale und der Kirche ausgerichtet sein. Wörter und Sätze können mit dem Ansatz des Hinweises und der Toolbox zum Training statistischer Ausrichtungsmodelle GIZA ++ ausgerichtet werden. Was ist neu in dieser Version: · Robuste Umwandlung von Kodierungen in tag.pl/toktag.pl/chunk.pl· Fügte TreeTagger Startup-Skripts für ES und NL, ersetzen Sie "NBSP" auf "", · robuste Umwandlung zwischen den Kodierungen in Bitext-Indexer.pl/opus-dexer.pl· hinzugefügte Start-up-Skripts für spanische und niederländische Tagger-Modelle · Aktualisierte Startkripte für andere Treetagger-Modelle nach Neueste TreeTagger-Distribution · Fixed HUNGAIGN (Fehler bei der Konvertierung der Ausrichtung der Ausrichtung an XML) · fehlende ";"; in Zeile 40 in uplug.pm
Älter Zugehörige Software