Usługa do przetwarzania tekstu: tager, parser, rozpoznawanie jednostek referencyjnych (ner). Wykorzystuje narzędzie spaCy. Tager kategoryzuje tokeny tagami z universal dependency POS. Rozpoznawane jednostki referencyjne zależą od modelu i można je znaleźć wchodząc w odpowiedni model.
any2txt|spacy({"method":"ner","lang":"pl"})
Plik tekstowy.
Zależnie od opcji method:
speller({"method":"ner","lang":"pl","pron":"leave","output_format":"ccl"})
method
może przyjmować następujące wartości:lang
może przyjmować następujące wartości:Lista dostępnych języków zależy od pliku konfiguracyjnego. Lista wszystkich możliwych do dodania opcji znajduje się tu.
pron
może przyjmować następujące wartości:Opcja pron
ma wpływ jedynie na język angielski. Nie ma wpływu na metodę speller. Nie podanie wartości ustawia tą opcje na leave. Podanie jakiejkolwiek innej wartości niż leave powoduje pozostanie przy domyślnych lemmatach -PRON-.
output_format
może przyjmować następujące wartości:Opcja output_format
na wpływ jedynie na metody tager i ner. Obecnie jedyną dostępną opcją jest ccl.
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|spacy({"method":"ner","lang":"pl"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL