Usługa do wydobywania terminów ze zbioru tekstów w języku polskim. Wykorzystuje narzędzie TermoPL.
any2txt|morphoDita|dir|termopl2({"mw":false,"sw":"/resources/termopl/termopl_sw.txt","cp":"/resources/termopl/termopl_cp.txt"})
Katalog zawerający otagowane pliki w formacie CCL (wyjście z tagera).
Katalog zawierający dwa pliki csv (tsv) z wykrytymi terminami. Plik terms.csv zawiera wszystkie wykryte terminy. Natomiast termsshaort.csv jest wersją terms.csv ograniczoną do 900 pozycji.
mw - true oznacza, że zwracana będa tylko terminy wielowyrazowe
sw - ścieżka (w systemie usług) do pliku zawierającego listę słów nie branych pod uwagę (stop list)
cp - ścieżka (w systemie usług) do pliku zawierającego listę wzorców zaimków nie branych pod uwagę (compound prepositions)
Uwaga:
Opcje opisane w dokumentacji TermoPL
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|morphoDita|dir|termopl2({"mw":false,"sw":"/resources/termopl/termopl_sw.txt","cp":"/resources/termopl/termopl_cp.txt"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL, Contact: webserwisy(at)clarin-pl.eu