Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Postagger to usługa do wydobywania z tekstu znaczników części mowy i lematów. Jest dostępna dla języka polskiego i angielskiego
Wykorzystuje tagger czyli narzędzie, które kategoryzuje fragmenty tekstu znacznikami określonymi w tagsecie. Tagset to zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Tagset NKJP dla języka polskiego przyjmuje 36 klas gramatycznych, natomiast tagset UD dla języka angielskiego 17.
Postagger można uruchomić:
Postagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN ['postagger']
- dane wejściowe w języku polskim, wyjściowe w formacie JSON.
[{'postagger':{'lang':'en','output':'ccl'}}]
- dane wejściowe w języku angielskim i wyjściowe w formacie CCL[{'postagger':{'lang':'pl','tagset':'ud'}}]
- dane wejściowe w języku polskim i wyjściowe w formacie CCL, wybór tagsetu ud
dla języka polskiego[{'postagger':{'method':'ner'}}]
- dodatkowa funkcja rozpoznawania jednostek nazwanych[{'postagger':{'output':'lemmas'}}]
- dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematówlang
- wybór języka przetwarzanego tekstu, możliwe wartości:
pl
- opcja domyślnaen
- język angielskitagset
- wybór zestawu znaczników, przyjmuje wartości:
nkjp
- domyślnie dla języka polskiego: 36 klas gramatycznychud
- domyślnie dla języka angielskiego: 17 klas gramatycznych.method
- wybór metody przetwarzania:
tagger
- narzędzie tagger dzieli tekst na tokeny, które otagowuje znacznikami tagsetu wybranego języka, opcja domyślna.method
:tagger
można też:
tagset
dla języka polskiego z nkjp
na ud
output
- wybór formatu danych wyjściowych:
json
- JSON CCL, opcja domyślnaccl
- XML CCLlemmas
- plik tekstowy zawierający tekst oryginalny sprowadzony do lematówner
- funkcja rozpoznawania jednostek nazwanych (NER, ang. Named Entity Recognition) do informacji zwracanej przez tagger dodaje sekcję z nazwanymi jednostkami identyfikacyjnymi. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.json_text
- przełącznik warunkujący, czy wynik w formacie JSON ma zawierać tekst oryginalny, domyślnie: True
, możliwe wartości: True
, False
Plik lub katalog dokumentów.
W zależności od wybranych opcji przetwarzania:
['postagger']
z wartościami domyślnymi (dane wejściowe w języku polskim, wyjściowe w formacie JSON) zawierają następujące informacje:filename
- nazwa pliku na serwerzetagset
- zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp
dla języka polskiego (36 klas gramatycznych) i ud
dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens
- podział na tokenyindex
- numer tokenuposition
- indeksy fragmentu łańcucha znaków (tekstu) w postaci pary wartości liczbowych, w której:
orth
- forma ortograficzna tokenulexemes
- leksemylemma
- lematmstag
- znaczniki morfosyntaktycznedisamb
- informacja, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości True
lub False
.Format danych wyjściowych: JSON CCL lub XML CCL.
[{'postagger':{'method':'ner'}}]
zawierają dodatkowe klucze z nazwanymi jednostkami pod wspólnym kluczem entities
:text
- zawiera wyznaczoną jednostkętype
- typ jednostki nazwanej. Spis możliwych wartości znajduje się tutaj.tokens
- indeksy tokenów z domyślnej (opisanej wyżej) sekcji tokens
position
- indeksy jednostki w postaci pary wartości liczbowych, w której:
Format danych wyjściowych: tylko JSON CCL.
lemmas
.W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów