Przed skorzystaniem z usługi należy zapoznać się z informacjami wstępnymi zawierającymi opis kroków umożliwiających dostęp do interfejsu programistycznego CLARIN-PL.
Postagger to usługa do wydobywania z tekstu znaczników części mowy i lematów. Jest dostępna dla języka polskiego i angielskiego. Wykorzystuje tagger czyli narzędzie, które kategoryzuje fragmenty tekstu znacznikami określonymi w tagsecie. Tagset to zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Tagset NKJP dla języka polskiego przyjmuje 36 klas gramatycznych, natomiast tagset UD dla języka angielskiego 17.
Postagger umożliwia wykorzystanie następujących usług:
NER (Named Entity Recognition) - narzędzie służące do rozpoznawania jednostek nazwanych. NER rozpoznaje i wyodrębnia jednostki z bloku tekstu, a następnie taguje je odpowiadającymi im tagami. Szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.
Clalink - model głęboki, który pozwala na kontekstowe wiązanie wzmianek występujących w tekście z siecią semantyczną. Szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.
Senselink - model głęboki, który pozwala na wiązanie pojęć z sieci semantycznej z ich wystąpieniami w WorldNecie. Szczegółowe informacje na temat wykorzystania Senselinka w Postaggerze znajdują się tutaj.
Postagger można uruchomić:
Postagger można wywołać w systemie Windows z wartościami domyślnymi za pomocą zapytania LPMN ['postagger'] - dane wejściowe w języku polskim, wyjściowe w formacie JSON.
[{'postagger':{'lang':'en','output':'ccl'}}] - dane wejściowe w języku angielskim i wyjściowe w formacie CCL[{'postagger':{'lang':'pl','tagset':'ud'}}] - dane wejściowe w języku polskim i wyjściowe w formacie CCL, wybór tagsetu ud dla języka polskiego[{'postagger':{'output':'lemmas'}}] - dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematów[{'postagger':{'lang':'pl','output':'json','json_text':false}}] - dane wejściowe w języku polskim i wyjściowe w postaci tekstu oryginalnego sprowadzonego do lematów, wynik w formacie JSON bez tekstu oryginalnego[{'postagger': {'lang':'pl','output':'json','method':'ner'}}] - dane wejściowe w języku polskim, wyjściowe w formacie JSON CCL, metoda przetwarzania to NER[{'postagger':{'lang':'de','output':'json','method':'tagger'}}] - dane wejściowe w języku niemieckim, wyjściowe w formacie JSON CCL, metoda przetwarzania to tagger[{'postagger':{'output':'tei','method':'ner','lang':'pl'}}] - dane wejściowe w języku polskim, wyjściowe w formacie TEI, metoda przetwarzania to NERmethod - wybór metody przetwarzania:
tagger - narzędzie tagger dzieli tekst na tokeny, które otagowuje znacznikami tagsetu wybranego języka, wartość domyślna.
tagset - wybór zestawu znaczników, przyjmuje wartości:
identical - wartość domyślnankjp - domyślnie dla języka polskiego: 36 klas gramatycznychud - domyślnie dla języka angielskiego: 17 klas gramatycznych.tagger_type - typ taggera:
morphodita - tagger dla języka polskiego, wartość domyślnapoldeepner2tagger - tagger dla języka polskiegospacy - tagger dla języka polskiego i pozostałych językówptag - tagger dla języka polskiegoarcheopteryx - tagger dla języka polskiegoner - szczegółowe informacje na temat wykorzystania NER-a w Postaggerze znajdują się tutaj.
ner_type - typ NER-a:
winer - NER dla języka polskiego, wartość domyślnaliner - NER dla języka polskiegopoldeepner2 - NER dla języka polskiego i pozostałych językówspacy - dla języka polskiego i pozostałych językówlang - wybór języka przetwarzanego tekstu, możliwe wartości:
pl - wartość domyślnaen - język angielskioutput - wybór formatu danych wyjściowych:
json - JSON CCL, wartość domyślnaccl - XML CCLlemmas - plik tekstowy zawierający tekst oryginalny sprowadzony do lematówtei - standard kodowania tekstów TEI (Text Encoding Initiative)json_text - przełącznik warunkujący, czy wynik w formacie JSON ma zawierać tekst oryginalny, domyślnie: True, możliwe wartości: True, Falselinking - wybór linkera, może być łańcuchem znaków lub listą w przypadku uruchamiania wielu linkerów
None - brak, wartość domyślnaclalink - szczegółowe informacje na temat wykorzystania Clalinka w Postaggerze znajdują się tutaj.senselinklinking_type - sposób linkowania ze słownikiem dla każdego linkera
None - wartość domyślnaclalink
nersenselink
['noun','verb','adverb','adjective']Plik lub katalog dokumentów.
W zależności od wybranych opcji przetwarzania:
['postagger'] z wartościami domyślnymi (dane wejściowe w języku polskim, wyjściowe w formacie JSON) zawierają następujące informacje:filename - nazwa pliku na serwerzetagset - zbiór znaczników opisujących możliwe informacje morfologiczne wykorzystywany w analizie morfologicznej. Przyjmuje wartości nkjp dla języka polskiego (36 klas gramatycznych) i ud dla języka angielskiego (17 klas gramatycznych). Lista znaczników NKJP znajduje się tutaj.tokens - podział na tokenyindex - numer tokenuposition - indeksy fragmentu łańcucha znaków (tekstu) w postaci pary wartości liczbowych, w której:
orth - forma ortograficzna tokenulexemes - leksemylemma - lematmstag - znaczniki morfosyntaktycznedisamb - informacja, czy forma jest ujednoznaczniona w danym kontekście. Przyjmuje wartości True lub False.Format danych wyjściowych: JSON CCL lub XML CCL.
lemmas.W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów
(C) CLARIN-PL