Postagger umożliwia wykorzystanie narzędzia NER (ang. Named Entity Recognition) służącego do rozpoznawania jednostek nazwanych. NER rozpoznaje i wyodrębnia jednostki z bloku tekstu, a następnie taguje je odpowiadającymi im tagami. Postagger uruchamia NER-a właściwego dla wybranegp języka przetwarzania.
[{'postagger':{'method':'ner'}}]
- dodatkowa funkcja rozpoznawania jednostek nazwanychAby uruchomić Postaggera z NER-em należy użyć opcji:
method: ner
- wybór metody przetwarzania: NER. NER to funkcja rozpoznawania jednostek nazwanych (NER, ang. Named Entity Recognition) do informacji zwracanej przez tagger dodaje sekcję z nazwanymi jednostkami identyfikacyjnymi. Jeśli dane wejściowe są większe niż 48 kB, tekst jest dzielony na fragmenty, które są obiektami JSON zapisanymi każdy w jednej linii (JSON Lines text format). Jest ich tyle, ile wydzielonych fragmentów i wszystkie są zwracane w jednym pliku.Plik lub katalog dokumentów.
Dane wyjściowe dla zapytania [{'postagger':{'method':'ner'}}]
zawierają dodatkowe klucze z nazwanymi jednostkami pod wspólnym kluczem entities
:
text
- zawiera wyznaczoną jednostkętype
- typ jednostki nazwanej. Spis możliwych wartości znajduje się tutaj.tokens
- indeksy tokenów z domyślnej (opisanej wyżej) sekcji tokens
position
- indeksy jednostki w postaci pary wartości liczbowych, w której:
Format danych wyjściowych: tylko JSON CCL.
W Colabie: Postagger - ujednoznacznianie morfosyntaktyczne i wyznaczanie lematów
(C) CLARIN-PL