OpenCorpora-Tools.

opccorpora.org Python-Schnittstelle
Jetzt downloaden

OpenCorpora-Tools. Ranking & Zusammenfassung

Anzeige

  • Rating:
  • Lizenz:
  • MIT/X Consortium Lic...
  • Preis:
  • FREE
  • Name des Herausgebers:
  • Mikhail Korobov
  • Website des Verlags:
  • http://bitbucket.org/kmike/

OpenCorpora-Tools. Stichworte


OpenCorpora-Tools. Beschreibung

OPENCCORA-Tools ist ein Modul, das Python-Schnittstelle zu http://opencorpora.org/installationpip installieren : //opencora.org/.Sie können das XML manuell herunterladen und auspacken (von 'Downloads' Seite) oder verwenden Sie einfach die bereitgestellte Befehlszeile Verwendung: opcorpora downloadrun opcorpora herunterladen --help für weitere Optionen.Deckende CorporanIrialize: >>> Importieren von OpenCorpora >>> Corpus = openCorpora.corpora ('annot.opcorpora.xml') Erhalten Sie eine Liste der Dokumente: >>> Katalog = corpus.catalog () >>> doc_id, doc_title = Katalog >>> drucken doc_id1610 >>> doc_title24105 « » Work mit einem Dokument: >>> doc = corpus >>> print doc.title () 24105 « » >> > drucken doc.words () >>> doc.sents () : « » >>> print doc.paras () « » · , ««» .corpora, dokument, Absatz und Satzklassen unterstützen die folgenden Methoden (wenn es sinnvoll ist, zB Der Satz hat keine Absätze): - Wörter () - Gibt eine Liste von Wörtern und anderen Token zurück. - SENTS () - Gibt eine Liste der Satzinstanzen zurück; - Paras () - Gibt eine Liste der Absatzinstanzen zurück; - Dokumente () - Gibt eine Liste der Dokumenteninstanzen zurück (dies ist Speicher-HOG!); - tagged_words () - Gibt eine Liste von (str, str) zurück; - tagged_sents () - gibt eine Liste der (Liste (str, str) zurück; - tagged_paras () - gibt eine Liste von (Liste der (Liste (STR, STR)); - iterwords (), itersets (), iterparas (), iterdocuments (), iter_tagged_words, iter_tagged_sents, iter_tagged_paras - Return-Iteratoren über Wörter, Sätze, Absätze oder Dokumente; Sie können auch über Corpora, Dokument, Absatz und Satzung iterieren (dies ergibt Dokumente, Absätze, Sätze und Wörter), zB: >>> Sent = doc.sents () >>> für word In geschickt: ... Drucken Wort ... «« »the API ist nach NLTK-CorpusReader-API modelliert. Es ist nicht genau das Gleiche, sondern ist sehr ähnlich. Z.B. SENTS () In OpenCorpora-Tools gibt eine Liste der Satzinstanzen zurück und SENTS () in NLTK gibt eine Liste der Liste der Zeichenfolgen zurück, aber Satzinstanzen Quacks wie eine Liste von Zeichenfolgen (es kann indiziert, itertiert usw.) so opcorpora. Corpora-API kann als Superset von NLTK CorpusReader API.PRODUCT's Homepage angesehen werden


OpenCorpora-Tools. Zugehörige Software

Boozelib.

ein Python-Modul, das ein paar Funktionen enthält, um den * Blutalkoholgehalt * von Menschen zu berechnen ...

63

Herunterladen