Postagger umożliwia wykorzystanie narzędzia NER (ang. Named Entity Recognition) służącego do rozpoznawania jednostek nazwanych. NER rozpoznaje i wyodrębnia jednostki z bloku tekstu, a następnie taguje je odpowiadającymi im tagami. Postagger uruchamia NER-a właściwego dla wybranegp języka przetwarzania.
[{'postagger':{'method':'ner'}}] - dodatkowa funkcja rozpoznawania jednostek nazwanychAby uruchomić Postaggera z NER-em należy użyć opcji:
method: ner - wybór metody przetwarzania: NER. NER to funkcja rozpoznawania jednostek nazwanych (NER, ang. Named Entity Recognition) do informacji zwracanej przez tagger dodaje sekcję z nazwanymi jednostkami identyfikacyjnymi. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.Plik lub katalog dokumentów.
Dane wyjściowe dla zapytania [{'postagger':{'method':'ner'}}] zawierają dodatkowe klucze z nazwanymi jednostkami pod wspólnym kluczem entities:
text - zawiera wyznaczoną jednostkętype - typ jednostki nazwanej. Spis możliwych wartości znajduje się tutaj.tokens - indeksy tokenów z domyślnej (opisanej wyżej) sekcji tokens
position - indeksy jednostki w postaci pary wartości liczbowych, w której:
Format danych wyjściowych: tylko JSON CCL.
W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów
(C) CLARIN-PL