Usługa przeprowadzająca proces ujednoznaczniania znaczeń słów w tekstach polskich i angielskich. Wykorzystuje narzedzie WoSeDon bazujące na zasobach polskiego wordnetu -- Słowosieci oraz algorytmach przetwarzania sieci semantycznych.
any2txt|wcrft2|wsd({"use_mwe":"True"})
Dane w formacie CCL po procesie ujednoznaczniania morfosyntaktycznego (np. wyjście z taggera WCRFT).
Dane w formacie CCL z przypisanymi odniesieniami do znaczeń Słowosieci wyznaczonych w procesie ujednoznaczniania.
<orth>najpospolitszych</orth>
<lex disamb="1"><base>pospolity</base><ctag>adj:pl:gen:m1:sup</ctag></lex>
<prop key="sense:ukb:syns_id">417816</prop>
<prop key="sense:ukb:syns_rank">417816/785.1347331309 418058/716.9765884491 469959/716.6239627660 470096/654.4626493510</prop>
<prop key="sense:ukb:unitsstr">pospolity.2(42:jak)</prop>
</tok>
<tok>
<orth>substancji</orth>
<lex disamb="1"><base>substancja</base><ctag>subst:sg:gen:f</ctag></lex>
<prop key="sense:ukb:syns_id">5236</prop>
<prop key="sense:ukb:syns_rank">5236/1384.1277869331 398671/1281.7787693250</prop>
<prop key="sense:ukb:unitsstr">substancja.1(24:sbst)</prop>
</tok>
Do tokenów przypisywane są atrybuty ujednoznaczniania, głównie <prop key="sense:ukb:syns_id">id_synsetu</prop>
, gdzie id_synsetu zawiera identyfikator znaczenia w Słowosieci. Atrybut <prop key="sense:ukb:syns_rank">
wyznacza ranking potencjalnych kandydatów ocenionych według miary ujednoznaczniającej. Szybką weryfikację poprawności przypisanych znaczeń można przeprowadzić poprzez API Słowosieciowe za pomocą następującego zapytania w przeglądarce:
http://plwordnet.pwr.wroc.pl/wordnet/synset/id_synsetu
Opcja use_mwe
pozwala na uwzględnienie mechanizmu wykrywania wyrażeń wielowyrazowych (realizowane za pomocą corpus2mwe oraz WCCL) zwiększając przy tym dokładność ujednoznaczniania.
from lpmn_client import download_file, upload_file
from lpmn_client import Task
task = Task(lpmn='any2txt|wcrft2|wsd({"use_mwe":"True"})')
task.email = "example@mail.com" # change e-mail
file_id = upload_file("./test.zip") # zip file with some documents (for example docx files)
output_file_id = task.run(file_id)
download_file(output_file_id, "./out")
(C) CLARIN-PL