Usługa wyznaczająca rodzaj i granice nazw własnych w tekście (dla języka polskiego). Wykorzystuje narzedzie Liner2 opisane tutaj.
any2txt|wcrft2|liner2({"model":"names"})
Plik w formacie ccl z wyznaczonymi POS (wyjście z taggera np, wcrft2).
Plik w formacie ccl z oznaczonymi granicami nazw własnych
W zależności od wybranego modelu rozpoznawania nazw, granice nazw własnych mogą wyglądać następująco:
<pre>
<tok>
<orth>Władysław</orth>
<lex disamb="1"><base>Władysław</base><ctag>subst:sg:nom:m1</ctag></lex>
<ann chan="person_first_nam">1</ann>
<ann chan="person_last_nam">0</ann>
</tok>
<tok>
<orth>Jagiełło</orth>
<lex disamb="1"><base>Jagiełło</base><ctag>subst:sg:nom:m1</ctag></lex>
<ann chan="person_first_nam">0</ann>
<ann chan="person_last_nam">1</ann>
</tok>
</pre>
Oznacza to, że otrzymujemy plik ze znacznikami POS oraz adnotacjami: <ann chan="typ nazwy">id</ann>
. Gdzie id, gdy jest większe niż zero, wskazuje na przynależność lematu do nazwy własnej o danym id.
liner2({"model":nazwamodelu})
Opcja model
może przyjmować następujące wartości:
Przykład: {"model":"names"}
Kategorie nazw w modelach n82, top9, 5nam, nams i timex są opisane tutaj, natomiast opis jednostek identyfikacyjnych jest dostępny w "Wytycznych KPWr".
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|wcrft2|liner2({"model":"names"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL