Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Postagger to usługa do wydobywania z tekstu znaczników części mowy i lematów. Jest dostępna dla języka polskiego i angielskiego. Wykorzystuje tagger czyli narzędzie, które kategoryzuje fragmenty tekstu znacznikami określonymi w tagsecie. Tagset to zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Tagset NKJP dla języka polskiego przyjmuje 36 klas gramatycznych, natomiast tagset UD dla języka angielskiego 17.
Postagger umożliwia wykorzystanie następujących usług:
NER (Named Entity Recognition) - narzędzie służące do rozpoznawania jednostek nazwanych. NER rozpoznaje i wyodrębnia jednostki z bloku tekstu, a następnie taguje je odpowiadającymi im tagami. Szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.
Clalink - model głęboki, który pozwala na kontekstowe wiązanie wzmianek występujących w tekście z siecią semantyczną. Szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.
Senselink - model głęboki, który pozwala na wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie. Szczegółowe informacje na temat wykorzystania Senselinka w Postaggerze znajdują się tutaj.
Postagger można uruchomić:
Postagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN ['postagger']
- dane wejściowe w języku polskim, wyjściowe w formacie JSON.
[{'postagger':{'lang':'en','output':'ccl'}}]
- dane wejściowe w języku angielskim i wyjściowe w formacie CCL[{'postagger':{'lang':'pl','tagset':'ud'}}]
- dane wejściowe w języku polskim i wyjściowe w formacie CCL, wybór tagsetu ud
dla języka polskiego[{'postagger':{'output':'lemmas'}}]
- dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematów[{'postagger':{'lang':'pl','output':'json','json_text':false}}]
- dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematów, wynik w formacie JSON bez tekstu oryginalnego[{'postagger': {'lang':'pl','output':'json','method':'ner'}}]
- dane wejściowe w języku polskim, wyjściowe w formacie JSON CCL, metoda przetwarzania to NER[{'postagger':{'lang':'de','output':'json','method':'tagger'}}]
- dane wejściowe w języku niemieckim, wyjściowe w formacie JSON CCL, metoda przetwarzania to tagger[{'postagger':{'output':'tei','method':'ner','lang':'pl'}}]
- dane wejściowe w języku polskim, wyjściowe w formacie TEI, metoda przetwarzania to NERmethod
- wybór metody przetwarzania:
tagger
- narzędzie tagger dzieli tekst na tokeny, które otagowuje znacznikami tagsetu wybranego języka, wartość domyślna.
tagset
- wybór zestawu znaczników, przyjmuje wartości:
identical
- wartość domyślnankjp
- domyślnie dla języka polskiego: 36 klas gramatycznychud
- domyślnie dla języka angielskiego: 17 klas gramatycznych.tagger_type
- typ taggera:
morphodita
- tagger dla języka polskiego, wartość domyślnapoldeepner2tagger
- tagger dla języka polskiegospacy
- tagger dla języka polskiego i pozostałych językówner
- szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.
ner_type
- typ NER-a:
winer
- NER dla języka polskiego, wartość domyślnaliner
- NER dla języka polskiegopoldeepner2
- NER dla języka polskiego i pozostałych językówspacy
- dla języka polskiego i pozostałych językówlang
- wybór języka przetwarzanego tekstu, możliwe wartości:
pl
- wartość domyślnaen
- język angielskioutput
- wybór formatu danych wyjściowych:
json
- JSON CCL, wartość domyślnaccl
- XML CCLlemmas
- plik tekstowy zawierający tekst oryginalny sprowadzony do lematówtei
- standard kodowania tekstów TEI (Text Encoding Initiative)json_text
- przełącznik warunkujący, czy wynik w formacie JSON ma zawierać tekst oryginalny, domyślnie: True
, możliwe wartości: True
, False
linking
- wybór linkera, może być łańcuchem znaków lub listą w przypadku uruchamiania wielu linkerów
None
- brak, wartość domyślnaclalink
- szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.senselink
linking_type
- sposób linkowania ze słownikiem dla każdego linkera
None
- wartość domyślnaclalink
ner
senselink
['noun','verb','adverb','adjective']
Plik lub katalog dokumentów.
W zależności od wybranych opcji przetwarzania:
['postagger']
z wartościami domyślnymi (dane wejściowe w języku polskim, wyjściowe w formacie JSON) zawierają następujące informacje:filename
- nazwa pliku na serwerzetagset
- zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp
dla języka polskiego (36 klas gramatycznych) i ud
dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens
- podział na tokenyindex
- numer tokenuposition
- indeksy fragmentu łańcucha znaków (tekstu) w postaci pary wartości liczbowych, w której:
orth
- forma ortograficzna tokenulexemes
- leksemylemma
- lematmstag
- znaczniki morfosyntaktycznedisamb
- informacja, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości True
lub False
.Format danych wyjściowych: JSON CCL lub XML CCL.
lemmas
.W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów
(C) CLARIN-PL