Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Postagger to usługa do wydobywania z tekstu znaczników części mowy i lematów. Jest dostępna dla języka polskiego i angielskiego. Wykorzystuje tagger czyli narzędzie, które kategoryzuje fragmenty tekstu znacznikami określonymi w tagsecie. Tagset to zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Tagset NKJP dla języka polskiego przyjmuje 36 klas gramatycznych, natomiast tagset UD dla języka angielskiego 17.
Postagger umożliwia wykorzystanie następujących usług:
Clalink - model głęboki, który pozwala na kontekstowe wiązanie wzmianek występujących w tekście z siecią semantyczną. Szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.
NER (ang. Named Entity Recognition) - narzędzia służącego do rozpoznawania jednostek nazwanych. NER rozpoznaje i wyodrębnia jednostki z bloku tekstu, a następnie taguje je odpowiadającymi im tagami. Szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.
Postagger można uruchomić:
Postagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN ['postagger']
- dane wejściowe w języku polskim, wyjściowe w formacie JSON.
[{'postagger':{'lang':'en','output':'ccl'}}]
- dane wejściowe w języku angielskim i wyjściowe w formacie CCL[{'postagger':{'lang':'pl','tagset':'ud'}}]
- dane wejściowe w języku polskim i wyjściowe w formacie CCL, wybór tagsetu ud
dla języka polskiego[{'postagger':{'output':'lemmas'}}]
- dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematówmethod
- wybór metody przetwarzania:
tagger
- narzędzie tagger dzieli tekst na tokeny, które otagowuje znacznikami tagsetu wybranego języka, opcja domyślna. Opcja tagger
pozwala na użycie opcji tagset
i output
:
tagset
- wybór zestawu znaczników, przyjmuje wartości:
nkjp
- domyślnie dla języka polskiego: 36 klas gramatycznychud
- domyślnie dla języka angielskiego: 17 klas gramatycznych.output
- wybór formatu danych wyjściowych:
json
- JSON CCL, opcja domyślnaccl
- XML CCLlemmas
- plik tekstowy zawierający tekst oryginalny sprowadzony do lematówner
- szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.lang
- wybór języka przetwarzanego tekstu, możliwe wartości:
pl
- opcja domyślnaen
- język angielskijson_text
- przełącznik warunkujący, czy wynik w formacie JSON ma zawierać tekst oryginalny, domyślnie: True
, możliwe wartości: True
, False
linking: clalink
- szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.Plik lub katalog dokumentów.
W zależności od wybranych opcji przetwarzania:
['postagger']
z wartościami domyślnymi (dane wejściowe w języku polskim, wyjściowe w formacie JSON) zawierają następujące informacje:filename
- nazwa pliku na serwerzetagset
- zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp
dla języka polskiego (36 klas gramatycznych) i ud
dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens
- podział na tokenyindex
- numer tokenuposition
- indeksy fragmentu łańcucha znaków (tekstu) w postaci pary wartości liczbowych, w której:
orth
- forma ortograficzna tokenulexemes
- leksemylemma
- lematmstag
- znaczniki morfosyntaktycznedisamb
- informacja, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości True
lub False
.Format danych wyjściowych: JSON CCL lub XML CCL.
lemmas
.W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów
(C) CLARIN-PL